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PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS 
Con el soporte de MATLAB? para cálculos y gráficos estadísticos 


1 INTRODUCCIÓN 


Esta obra es una contribución dedicada a los estudiantes que toman un primer curso de 
Probabilidad y Estadística a nivel universitario en las carreras de ingeniería. El pre-requisito es el 
conocimiento del cálculo diferencial e integral y alguna experiencia previa con el programa 
MATLAB para aprovechar el poder de este instrumento computacional como soporte para los 
cálculos y gráficos estadísticos. 


El contenido se basa en la experiencia desarrollada en varios años impartiendo el curso de 
Estadística para estudiantes de ingeniería de la ESPOL, y especialmente en el curso en 
modalidad a distancia que ofrece el Instituto de Ciencias Matemáticas como una opción para los 
estudiantes que por dificultades en el horario de clases no pueden tomar los cursos en el horario 
regular. 


Esta obra contiene todo el material del curso de Estadística para las carreras de ingeniería en la 
ESPOL con muchos ejemplos desarrollados basados en temas propuestos en exámenes 
recientes, sin embargo solo pretende ser el segundo texto para esta materia pues el primero está 
por concluir bajo la responsabilidad del MSc. Gaudencio Zurita profesor principal de esta cátedra. 


Esta obra es un aporte para que los estudiantes aprecien el uso de un instrumento 
computacional moderno y flexible que en forma integradora puede ser usado como soporte 
común para todos los cursos básicos de matemáticas, incluyendo Álgebra Lineal, Cálculo 
Diferencial e Integral, Ecuaciones Diferenciales, Análisis Numérico, y ahora también Estadística. 


Para el manejo estadístico MATLAB dispone de un amplio repertorio de funciones especiales. 
Todos los cálculos en esta obra, incluyendo el manejo matemático simbólico, fueron realizados 
con estas funciones, asimismo los gráficos estadísticos. Sin embargo por el alcance del curso no 
se utilizaron las funciones más importantes de este paquete y que en cursos especializados de 
estadística se deberían aprovechar. En este sentido la obra es una introducción al uso de este 
extraordinario instrumento computacional. 


MATLAB tiene un sistema de ayuda y documentación extenso. Al final de esta obra se incluye la 
descripción de dos instrumentos computacionales interactivos para experimentar con modelos de 
probabilidad y con la generación de muestras aleatorias. 


El segundo objetivo principal de esta obra es contribuir al desarrollo de textos virtuales en la 
ESPOL, de tal manera que puedan ser usados frente a un computador pero que también puedan 
imprimirse totalmente o en partes, reduciendo costos y el uso de papel. El texto ha sido 
compilado en formato pdf. El tamaño del texto en pantalla es controlable, contiene dos índices 
dinámicos para simplificar la navegación y facilidades para agregar y borrar digitalmente 
resaltadores de texto, comentarios, notas, enlaces, revisiones, búsqueda por contenido, etc. 


Finalmente, debo agradecer a la ESPOL por facilitar a sus profesores desarrollar actividades 
académicas, y mencionar que esta obra tiene derechos de autor pero es de libre distribución. 


Luis Rodríguez Ojeda 

Instituto de Ciencias Matemáticas 

Escuela Superior Politécnica del Litoral, ESPOL 
Guayaquil, Ecuador 
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1.1 OBJETIVO DE LA ESTADÍSTICA 


El objetivo fundamental de la estadística es analizar datos y transformarlos en información útil 
para tomar decisiones. 


1.2 ORIGEN DE LA ESTADÍSTICA 


El origen de la Estadística se remonta a épocas en las que los gobernantes requerían técnicas 
para controlar a sus propiedades y a las personas. 


Posteriormente, el desarrollo de los juegos de azar propició el estudio de métodos matemáticos 
para su análisis los cuales con el tiempo dieron origen a la Teoría de la Probabilidad que hoy es 
el sustento formal de la Estadística. 


El advenimiento de la informática ha constituido el complemento adecuado para realizar estudios 
estadísticos mediante programas especializados que facilitan enormemente el tratamiento y 
transformación de los datos en información útil. 


La Estadística ha alcanzado un nivel de desarrollo muy alto y constituye actualmente el soporte 
necesario para todas las ciencias y para la investigación científica, siendo el apoyo para tomar 
decisiones en un entorno de incertidumbre. 


Es importante resaltar que las técnicas estadísticas deben usarse apropiadamente para que la 
información obtenida sea válida. 


1.3 DEFINICIONES PRELIMINARES 


ESTADÍSTICA 
Ciencia inductiva que permite inferir características cualitativas y cuantitativas de un conjunto 
mediante los datos contenidos en un subconjunto del mismo. 


POBLACIÓN 


Conjunto total de individuos u objetos con alguna característica que es de interés estudiar. 


MUESTRA 


Subconjunto de la población cuya información es usada para estudiar a la población 


VARIABLE 
Alguna característica observable de los elementos de una población y que puede tomar 
diferentes valores. 


DATO 


Es cada valor incluido en la muestra. Se lo puede obtener mediante observación o medición 


PARÁMETRO 


Es alguna característica de la población en estudio y que es de interés conocer. 


EXPERIMENTO ESTADÍSTICO 


Es un proceso que se diseña y realiza para obtener observaciones. 


VARIABLE ALEATORIA 


Es una variable cuyo valor es el resultado de un experimento estadístico 
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ESPACIO MUESTRAL 
Conjunto de todos los posibles resultados que se pudiesen obtener de un experimento 
estadístico 


MODELO 


Descripción simbólica o física de una situación o sistema que se desea estudiar 


MODELO DETERMINISTICO 

Representación exacta de un sistema. Permite obtener respuestas precisas 

Ejemplo: una ecuación matemática de la cual se obtiene un resultado para algunos valores 
asignados a las variables. 


MODELO PROBABILISTICO 

Representación de un sistema que incluye componentes aleatorios. Las respuestas obtenidas se 
expresan en términos de probabilidad. 

Ejemplo: un modelo para predecir el comportamiento de las colas que forman las personas frente 
a una estación de servicio. 


ESTADÍSTICA DESCRIPTIVA 


Técnicas para recopilar, organizar, procesar y presentar datos obtenidos en muestras. 


ESTADÍSTICA INFERENCIAL 


Técnicas para obtención de resultados basados en la información contenida en muestras. 


INFERENCIA ESTADÍSTICA 


Es la extensión a la población de los resultados obtenidos en una muestra 


1.4 DESARROLLO DE UN PROYECTO ESTADÍSTICO 


En forma resumida, se describen los pasos para resolver un problema usando las técnicas 
estadísticas 


PROBLEMA 


Es una situación planteada para la cual se debe buscar una solución. 


DEFINICION 

Para el problema propuesto deben establecerse los objetivos y el alcance del estudio a ser 
realizado considerando los recursos disponibles y definiendo actividades, metas y plazos. Se 
debe especificar la población a la cual está dirigido el estudio e identificar los parámetros de 
interés así como las variables que intervienen. 


Se deben formular hipótesis y decidir el nivel de precisión que se pretende obtener en los 


resultados. Deben elegirse el tamaño de la muestra y las técnicas estadísticas y 
computacionales que serán utilizadas. 
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ESTADÍSTICA DESCRIPTIVA 
Es el uso de las técnicas para obtener y analizar datos, incluyendo el diseño de cuestionarios en 
caso de ser necesarios. Se debe usar un plan para la obtención de los datos. 


ESTADÍSTICA INFERENCIAL 
Son las técnicas estadísticas utilizadas para realizar inferencias estadísticas que permiten validar 
las hipótesis propuestas. 


RESULTADOS 
Los resultados obtenidos deben usarse para producir información que sea útil para la toma de 
decisiones. 


NOTA IMPORTANTE 

La metodología de diseño en otros ámbitos de la ciencia e ingeniería usa la retroalimentación 
para corregir las especificaciones con las que se ejecutan las actividades, hasta que los 
resultados obtenidos concuerden con las especificaciones y requerimientos iniciales. 

Sin embargo, el uso de retroalimentación en la resolución de un problema estadístico podría 
interpretarse como un artificio para modificar los datos o la aplicación de las técnicas estadísticas 


para que los resultados obtenidos concuerden con los requerimientos e hipótesis formuladas 
inicialmente. En este sentido, usar retroalimentación no sería un procedimiento ético. 


PREGUNTAS 


Conteste en no más de dos líneas de texto cada pregunta 

1) ¿En que situaciones las técnicas estadísticas constituyen un soporte importante? 
2) ¿Cual es el aporte de la informática para el uso de las técnicas estadísticas? 

3) ¿Por que hay que tener precaución en el uso de los resultados estadísticos? 

4) ¿Cual es la diferencia entre población y muestra? 

5) ¿Cual es la característica principal de un modelo probabilístico? 

6) ¿Cual es el objetivo de realizar una inferencia estadística? 

7) ¿Está de acuerdo con el esquema propuesto para realizar un proyecto estadístico? 


8) ¿Está de acuerdo con la interpretación dada para la retroalimentación en la resolución de un 
problema estadístico? 
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2 ESTADÍSTICA DESCRIPTIVA 


Es el estudio de las técnicas para recopilar, organizar y presentar de datos obtenidos en un estudio 
estadístico para facilitar su análisis y aplicación. 


2.1 RECOPILACIÓN DE DATOS 


Fuentes de datos 
1) Investigación en registros administrativos: INEC, Banco Central, Cámaras de la 
Producción, Universidades, etc. para obtener índices de empleo, índice de precios, datos 
de salud, datos de eficiencia, etc. 
2) Obtención de datos mediante encuestas de investigación Ej. Estudios de mercado. 
Estudios de preferencia electoral, etc 
3) Realización de experimentos estadísticos 


Criterios para diseñar una encuesta de investigación 
1) Definir el objetivo del estudio 
2) Definir la población de interés 
3) Determinar el tamaño de la muestra 
4) Seleccionar el tipo de muestreo 
5) Elegir temas generales 
6) Elaborar el formulario para la encuesta: Preguntas cortas, claras y de opciones. 
7) Realizar pruebas 
8) Realizar la encuesta 


Tipos de datos 
Los resultados que se obtiene pueden ser 


1) Datos cualitativos: corresponden a respuestas categóricas 
Ej. El estado civil de una persona 

2) Datos cuantitativos: corresponden a respuestas numéricas 
Ej. La edad en años. 


Los datos cuantitativos pueden ser 


1) Discretos: Se obtienen mediante conteos 
2) Continuos: Se obtienen mediante mediciones 


2.2 DESCRIPCIÓN DE CONJUNTOS DE DATOS 


Los datos obtenidos se los puede representar de diferentes formas: 
1) Tabularmente. 

2) Gráficamente 

3) Mediante números 


Si la muestra contiene pocos datos, se los puede representar directamente, pero si el número de 
datos es grande conviene agruparlos para simplificar su análisis 
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2.3 TABLA DE DISTRIBUCIÓN DE FRECUENCIA 


Es un dispositivo para agrupación de datos y facilitar su interpretación. 


Recomendaciones para construir la Tabla de Frecuencia 
1) Identificar la unidad de medida de los datos 


2) Obtener el rango de los datos, R 
R = mayor valor - menor valor 


3) Seleccionar el numero de clases (o intervalos) k, para agrupar los datos. 
Sugerencia para elegir k 
Sean n: número de datos 
k: Número de clases 


n k 
Menos de 50 5a?7 
Entre 50 y 100 6a10 
Entre 100 y 250 7a12 
Mas de 250 10 a 20 


4) Obtener la amplitud de las clases, 
Amplitud = R/k 
Se puede redefinir la amplitud, el número de clases y los extremos de cada clase de tal 
manera que las clases tengan la misma amplitud, incluyan a todos los datos y los valores 
en los extremos de las clases sean simples 


5) Realizar el conteo de datos para obtener la frecuencia en cada clase 


Notación 
n: número de datos 
k: número de clases 
fi: frecuencia de la clase i, i=1, 2, 3, ..., k 
fin: frecuencia relativa de la clase i 
Fi: frecuencia acumulada de la clase i 


F; = fı+f2+f3+...+fi 
Fin: frecuencia acumulada relativa de la clase i 
m; : marca de la clase; (es el centro de la clase îi) 


Los resultados se los organiza en un cuadro denominado Tabla de Frecuencia 


Ejemplo.- Los siguientes 40 datos corresponden a una muestra del tiempo que se utilizó para 
atender a las personas en una estación de servicio: 


Obtener la tabla de frecuencia 
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olución 
Precisión: un decimal 
Rango: R = mayor valor — menor valor = 6.2 — 1.8 = 4.4 
Número de clases: k=6 
Amplitud: R/k = 0.7333.. 
Por simplicidad se redefine la amplitud como 1 y se usan números enteros para los 
extremos de las clases. 
Conteo de los datos (puede hacerse en un solo recorrido de los datos con la ayuda de 
cuadritos para conteo (de 5 en 5) 
Clase Intervalo Frecuencia 
[1, 2) 1 
[2, 3) 9 
[3, 4) 11 
[4, 5) 12 
[5, 6) 5 


[6, 7) 2 


= 40 


Tabla de Frecuencia 


Frecuencia 


Clase Intervalo | Marca | Frecuencia | Frecuencia Frecuencia 
acumulada 


de clase relativa acumulada A 
relativa 
[a, b) fin Fin 


[1, 2) l 0.025 0.025 
[2, 3) l 0.225 0.250 
[3, 4) 0.275 0.525 
[4, 5) 0.300 0.825 
[5, 6) 0.125 0.950 
[6, 7) 0.050 1.000 


EJERCICIOS 


1) Conteste las siguientes preguntas en no más de dos líneas de texto 

a) En las fuentes de recopilación de datos no se ha mencionado el uso de internet. ¿Cuales 
son las ventajas y peligros de su uso? 

b) Al diseñar el formulario de una encuesta de investigación. ¿Por que se prefieren preguntas 
con opciones para elegir? 

c) El número telefónico de una persona. ¿Es un dato cualitativo o cuantitativo? 

d) El dinero es un dato cuantitativo, ¿Discreto o continuo? 


2) Con los resultados obtenidos y descritos en la tabla de frecuencia del ejemplo desarrollado 
en esta sección, conteste las siguientes preguntas 

a) ¿Cuántas personas requirieron no más de 4 minutos para ser atendidas? 

b) ¿Cuántas personas requirieron entre 2 y 5 minutos? 

c) ¿Cuántas personas requirieron al menos 4 minutos? 

d) ¿Cuál es la duración que ocurre con mayor frecuencia? 


3) Construya la tabla de frecuencia para una muestra aleatoria con datos del costo por 
consumo de electricidad en una zona residencial de cierta ciudad. 

96 171 202 178 147 102 153 1297 | 127 82 
157 | 185 90 116 172 111 148 213 130 165 
141 | 149 206 175 123 128 144 168 109 167 
95 163 150 154 130 143 187 166 139 149 
108 | 119 183 151 114 135 191 137 129 158 
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MATLAB 


Construcción de la tabla de frecuencias 


Vector con los datos 
>> x=[3.1 4.9 2.8 3.6 4.5 3.5 2.8 4.1 2.9 2.1 3.7 4.1 2.7 4.2 3.5 3.7 3.8 2.2 4.4 2.9... 
5.1 1.8 2.5 6.2 2.5 3.6 5.6 4.8 3.6 6.1 5.1 3.9 4.3 5.7 4.7 4.6 5.1 4.9 4.2 3.1]; 


>> m=[1.5 2.5 3.5 4.5 5.5 6.5]; Vector con las marcas de clase 


>> f=hist(x,m) Obtención de las frecuencias en las marcas de clase 
f= 
1 9 11 122 5 2 


>> fr=f/40 Frecuencias relativas 
fr= 
0.0250 0.2250 0.2750 0.3000 0.1250 0.0500 


>> F=cumsum(f) Frecuencias acumuladas 
F= 
1 10 21 33 38 40 


>> Fr=F/40 Frecuencias acumuladas relativas 
Fr = 
0.0250 0.2500 0.5250 0.8250 0.9500 1.0000 
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2.4 REPRESENTACIÓN GRÁFICA DE CONJUNTOS DE DATOS 


En esta sección 


visualmente las características de grupos de datos. 


2.4.1 HISTOGRAMA 
Es la manera más común de representar gráficamente la distribución de frecuencia de los datos. 
Se lo construye dibujando rectángulos cuya base corresponde a cada intervalo de clase, y su 
altura según el valor de la frecuencia. Puede ser la frecuencia absoluta o la frecuencia relativa. 


revisamos algunos dispositivos frecuentemente usados para resaltar 


Ejemplo. Construya el histograma para el ejemplo de la unidad anterior. Use los valores de la 
frecuencia absoluta 


Tabla de Frecuencia 


Clase 


Intervalo 


Marca 
de clase 


Frecuencia 


Frecuencia 
relativa 


Frecuencia 
acumulada 


Frecuencia 
relativa 
acumulada 


[1, 2) 


1.5 


0.025 


1 


0.025 


[2, 3) 


2.5 


0.225 


10 


0.250 


[3, 4) 


3.5 


0.275 


21 


0.525 


[4, 5) 


4.5 


0.300 


33 


0.825 


[5, 6) 


5.5 


0.125 


38 


0.950 


[6, 7) 


6.5 


0.050 


40 


1.000 


> 


3 


Histograma 


El histograma permite dar una primera mirada al tipo de distribución de los datos: 


1) Silas alturas de las barras son similares se dice que tiene distribución tipo “uniforme” 

2) Si las alturas son mayores en la zona central se dice que tiene forma tipo “campana” y 
puede ser simétrica O asimétrica, con sesgo hacia el lado positivo o al lado negativo 

3) Si hay barras muy alejadas del grupo, se dice que son datos atípicos. Probablemente 
estos datos se deben a errores de medición y se los puede descartar pues no 
pertenecen al grupo que se desea caracterizar. 
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2.4.2 POLIGONO DE FRECUENCIA 

Es una manera de representar el perfil de la distribución de los datos. Se obtiene uniendo 
mediante segmentos de recta los puntos (marca de clase, frecuencia) 

Para cerrar el polígono se puede agregar un punto a cada lado con frecuencia 0. 


Polígono de frecuencia para el ejemplo dado: 
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2.4.3 OJIVA 


Este gráfico se usa para representar la frecuencia acumulada, absoluta o relativa. Se lo obtiene 
uniendo segmentos de recta que se extienden entre los extremos de las clases y usando los 
valores de la frecuencia acumulada. 


Ojiva para el ejemplo dado: 


40 


La ojiva permite responder preguntas tipo “cuantos datos son menores que” 


Ejemplo. ¿Cuantos datos tienen un valor menor a 4.5? 


Respuesta: aproximadamente 27 datos 
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2.4.4 GRÁFICOS DE FRECUENCIA CON FORMAS ESPECIALES 


Los gráficos pueden tomar otros aspectos usando barras, colores, efectos tridimensionales, 
sombreado, etc. o usando una representación tipo pastel 


Diagrama de barras 


1 2 3 4 5 6 


Diagrama de barras con efecto tridimensional 


Diagrama tipo pastel 
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EJERCICIOS 


Se tiene una muestra aleatoria con datos del costo por consumo de electricidad en una zona 
residencial de cierta ciudad. 


96 171 202 178 147 102 153 1297 | 127 82 

157 |185 90 116 172 111 148 213 130 165 
141 | 149 206 175 123 128 144 168 109 167 
95 163 150 154 130 143 187 166 139 149 
108 |119 183 151 114 135 191 137 129 158 


Use los resultados de la tabla de frecuencia y dibuje a mano los siguientes gráficos. 


a) Histograma con las frecuencias relativas 
b) Polígono de Frecuencias 
c) Ojiva 


MATLAB 


Obtención de gráficos. Los dibujos obtenidos se muestran en las páginas anteriores 


Vector con los datos 
>> x = [3.1 4.9 2.8 3.6 4.5 3.5 2.8 4.1 2.9 2.1 3.7 4.1 2.7 4.2 3.5 3.7 3.8 2.2 4.4 2.9... 
5.1 1.8 2.5 6.2 2.5 3.6 5.6 4.8 3.6 6.1 5.1 3.9 4.3 5.7 4.7 4.6 5.1 4.9 4.2 3.1]; 


Vector con las marcas de clase 
>> m=[1.5 2.5 3.5 4.5 5.5 6.5); 


Graficación del histograma 
>> hist(x, m); 
>> grid on Cuadrículas 


Graficación del polígono de frecuencias 

>> mp=[0.5 m 7.5]; Se agrega un punto con frecuencia cero a los lados 
>> f= hist(x, m); Obtención de las frecuencias en la m marcas de clase 
>> fp=[0 f 0]; 


>> clf 
>> plot(mp,fp,'o") Dibujo de los puntos en un nuevo gráfico 


>> hold on Mantener el gráfico anterior 
>> plot(mp,fp) Trazado de las líneas del polígono 
>> grid on Cuadrículas 


Graficación de la ojiva 

>> c=[123 4567]; Vector con los extremos de las seis clases 

>> F=cumsum([f); Vector con las frecuencias acumuladas 

>> Fo=[0 F]; Se agrega un punto a la izquierda con frecuencia cero 


>> clf 
>> plot(c,Fo,'o") Dibujo de los puntos en un nuevo gráfico 
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>> hold on Para superponer el siguiente gráfico 
>> plot(c, Fo) Trazado de las líneas de la ojiva 
>> grid on 


Gráfico de diagrama de barras con color verde 
>> clf 
>> bar(f'g”) 


Gráfico de diagrama de barras, horizontal con efecto tridimensional, color rojo 
>> clf 
>> bar3h(f,'r”) 


Gráfico tipo pastel 
>> clf 

>> f=hist(x,m); 

>> pie(f) 
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MEDIDAS DESCRIPTIVAS 
2.5 MEDIDAS DE TENDENCIA CENTRAL 


Son números que definen cual es el valor alrededor del que se concentran los datos u 
observaciones. Se indican a continuación los más utilizados. 


2.5.1 MEDIA MUESTRAL 


Si X1, X2, ».. , Xn representan a los datos, entonces se tiene: 


Definición: Media muestral 


Ejemplo. Silos datos son 2, 6, 11, 8, 11, 4,7,5 
Entonces X = (2+6+11+8+11+4+7+5)/8 = 6.75 


La media muestral es simple y de uso común. Representa el promedio aritmético de los datos. 
Sin embargo, es sensible a errores en los datos. Un dato erróneo puede cambiar 
significativamente el valor de la media muestral. Para evitar este problema, se puede ignorar un 
pequeño porcentaje de los datos más grandes y más pequeños de la muestra antes de calcular 
la media muestral 


Ejemplo. Silos datos son 2, 6, 11, 8, 11, 4, 7, 5, 90 
Entonces X = (2+6+11+8+11+4+7+5 + 90)/9 = 16 


Un sólo dato cambió significativamente el valor de la media con respecto al ejemplo anterior 


2.5.2 MODA MUESTRAL 


Es el valor que ocurre con mayor frecuencia en una muestra. Puede ser que no exista la moda y 
también es posible que exista más de una moda. 


Definición: Moda muestral 


Moda muestral: Mo es el valor que más veces se repite 


Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7,5 
Entonces Mo = 11 


2.5.3 MEDIANA MUESTRAL 


Es el valor que está en el centro de los datos ordenados 
Sean Xı, X2, ..., Xn los datos 
Xin Xi ++": Xin) los datos ordenados en forma creciente 


El subíndice entre paréntesis significa que el dato X¡, está en la posición i en el grupo ordenado. 
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Definición: Mediana muestral 


si n esimpar 


),si n es par 
GD 


Ejemplo: Si los datos son 2, 6, 11, 8, 11, 4, 7,5 
Los datos ordenados: 2, 4, 5, 6,7, 8, 11, 11, entonces X= =(6+ 7) =6.5 


Las medidas de tendencia central no son suficientes para describir de manera precisa el 
comportamiento de los datos de una muestra. Se necesitan otras medidas. 


2.6 MEDIDAS DE DISPERSIÓN 


Son números que proveen información adicional acerca del comportamiento de los datos, 
describiendo numéricamente su dispersión. 


2.6.1 RANGO 


Es la diferencia entre el mayor valor y el menor valor de los datos de la muestra. 


Definición: Rango 
R = Xn - Xm, en donde Xa es el dato ordenado ubicado en la posición i 


Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7,5 


Entonces el rango es:R=11-2=9 


2.6.2 VARIANZA MUESTRAL 
Esta medida se basa en la cuantificación de las distancias de los datos con respecto al valor de 
la media 


Definición: Varianza muestral 
OS = X)? 
i=1 


Er Fórmula para calcular la varianza 
n — 


S? 


ny x? a È X)? 


S? = Fórmula alterna para calcular la varianza 


n(n- 1) 


El motivo que en el denominador se escriba n - 1 en lugar de n (que parece natural), se 
justifica formalmente en el estudio de la estadística inferencial. 


Ambas fórmulas son equivalentes y se lo puede demostrar mediante desarrollo de las sumatorias 
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Ejemplo. Si los datos son 2, 6, 11, 8, 11, 4, 7, 5 y se tiene que X=6.75 


Entonces la varianza es 
2 2 2 
s?= (2 - 6.75)" + (6 2o) +... + (5- 6.75) = 10.2143 


2.6.3 DESVIACIÓN ESTÁNDAR MUESTRAL 
Es la raíz cuadrada positiva de la variancia. La desviación estándar muestral o desviación típica 
o error muestral, está expresada en las misma unidad de medición que los datos de la muestra 


Definición: Desviación estándar muestral 


Ejemplo. Calcule la desviación estándar para el ejemplo anterior. 


Si la varianza es S° = 10.2143, entonces, la desviación estándar es 


S = VJS? = /10.2143 = 3.196 


2.7 MEDIDAS DE POSICIÓN 


Son números que dividen al grupo de datos ordenados, en grupos de aproximadamente igual 
cantidad de datos con el propósito de resaltar su ubicación. 


2.7.1 CUARTILES 


Son números que dividen al grupo de datos en grupos de aproximadamente el 25% de los datos 


Primer Cuartil (Q1) 
A la izquierda de Q, están incluidos 25% de los datos (aproximadamente) 
A la derecha de Q; están el 75% de los datos (aproximadamente) 


Segundo Cuartil (Q2) 
Igual que la mediana divide al grupo de datos en dos partes, cada una con el 50% de los datos 
(aproximadamente) 


Tercer Cuartil (Q3) 
A la izquierda de Q; están incluidos 75% de los datos (aproximadamente) 
A la derecha de Q; están el 25% de los datos (aproximadamente) 


Ejemplo. Suponer que una muestra contiene 40 datos ordenados: 
Xa) X2), Sed X40). Calcular Qi, Qz, Q3 


Qu: 25% de 40 = 10 
Por lo tanto: Q1= (Xa0) + Xa12))/2 


Q»: 50% de 40 = 20 es igual a la mediana 
Q2 = (Xeo) + X21)/2 


Q;: 75% de 40 = 30 
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2.7.2 DECILES 


Son números que dividen al grupo de datos en grupos de aproximadamente 10% de los datos 


Primer Decil (D;) 
A la izquierda de D; están incluidos 10% de los datos (aproximadamente) 
A la derecha de D, están el 90% de los datos (aproximadamente) 


Segundo Decil (D3) 

A la izquierda de D; están incluidos 20% de los datos (aproximadamente) 
A la derecha de D, están el 80% de los datos (aproximadamente) 

Etc. 


Ejemplo. Suponer que una muestra contiene 40 datos ordenados: 
Xa) X2), E X40). Calcular Dı 


Dı: 10% de 40 = 4 
Por lo tanto: D4 = (X4 + X(5))/2 


2.7.3 PERCENTILES (O PORCENTILES) 


Son números que dividen al grupo de datos en grupos de aproximadamente 1% de los datos 


Primer Percentil (P14) 
A la izquierda de P, están incluidos 1% de los datos (aproximadamente) 
A la derecha de P, están el 99% de los datos (aproximadamente) 


Segundo Percentil (P2) 

A la izquierda de P, están incluidos 2% de los datos (aproximadamente) 
A la derecha de P, están el 98% de los datos (aproximadamente) 

Etc. 


Ejemplo. Suponer que una muestra contiene 400 datos ordenados: 
Xu X() a X 400)» Calcular P4, P82 


Pi: 1% de 400 = 4 
Por lo tanto: P4 = (X + X(5))/2 (Percentil 1) 


P32: 82% de 400 = 328 (Percentil 82) 
Pez = (X328) + X(829))/2 


2.8 COEFICIENTE DE VARIACIÓN 


Es un número que se usa para cara comparar la variabilidad de los datos de diferentes grupos. 
Es una medida adimensional definida de la siguiente manera 


Definición: Coeficiente de variación 
v=2 
Xx 


Ejemplo: Para un grupo de datos X =20,S=4, entonces v = 4/20 = 0.2 = 20% 
Para un segundo grupo X = 48, S = 6, entonces v = 6/48 = 0.125 = 12.5% 


Se concluye que el primer grupo tiene mayor variabilidad (respecto a su media) 
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EJERCICIOS 
| $ 


il 
1) Demuestre mediante propiedades de las sumatoria que P(x -x}) = Nx e EA 
i21 i=1 n 


Esto demuestra la equivalencia entre las dos fórmulas definidas para calcular la varianza. 


2) Se tiene una muestra aleatoria con datos del costo por consumo de electricidad en una zona 
residencial de cierta ciudad. 


96 171 202 178 147 
157 |185 90 116 172 
141 |149 206 175 123 
95 163 150 154 130 
108 |119 183 151 114 


Calcule X, X, s? , S, Q1, Q3, R, D4, D5 


3) Se tienen los siguientes datos de la cantidad de barriles por día que producen 45 pozos 
petroleros en un campo: cantidad mínima: 52; cantidad máxima 247; primer cuartil 87; mediana 
163; tercer cuartil 204. Grafique la Ojiva con la mayor precisión que le sea posible. 


4) Respecto al problema anterior. Una compañía está interesada en comprar solamente los 
pozos que produzcan mas de 100 barriles por día y pagará $150000 por cada uno. ¿Cuanto le 
costaría la inversión aproximadamente? 


MATLAB 


Fórmulas para estadística descriptiva 


>> x=[2 6 11 8 11 47 5]; Vector con los datos de una muestra 
>> xb=mean(x) Media aritmética 
xb = 
6.7500 
>> m=median(x) Mediana 
m= 


6.5000 
>> x=0:1:100; Vector con los primeros 100 números naturales 
>> xb=mean(x) Media aritmética 


xb = 
50 
>> x=[x 1000]; Vector con un valor grande agregado al final 
>> xb=mean(x) Media aritmética 
xb = 
59.3137 
>> xb=trimmean(x,10) Media aritmética omitiendo 5% de datos en cada lado 
xb = 
50.5000 
>> x=[2 6 11 8 11 47 5]; Vector con los datos de una muestra 
>> r=range(x) Rango de los datos 
r= 
9 
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>> a=min(x) 
a= 
2 
>> b=max(x) 
b = 
11 
>> s2=var(x) 
s2 = 
10.2143 
>> s=std(x) 
s= 
3.1960 
>> rq=iqr(x) 
rq = 
5 
>> q1=prctile(x,25) 


q3= 
9.5000 
>> y=sort(x) 


2 4 5 6 
>> x=rand(1,400); 
>> d7=prctile(x,70) 

d7 = 
0.7013 
>> p82=prctile(x,82) 


7 8 11 


11 


El menor valor 


El mayor valor 


Varianza muestral 


Desviación estándar muestral 


Rango intercuartil 


Primer cuartil (percentil 25) 


Tercer cuartil (percentil 75) 


ICM ESPOL 


Datos ordenados en forma creciente 


Vector con una fila de 400 números aleatorios 


Decil 7 (percentil 70) 


Percentil 82 
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2.9 FÓRMULAS PARA DATOS AGRUPADOS 


Si los datos de una muestra están disponibles en una tabla de frecuencia, se pueden usar 
fórmulas para calcular las medidas estadísticas descriptivas, en forma aproximada 


Suponer que se dispone de la tabla de frecuencia con valores que se indican en forma simbólica: 


Clase Intervalo Marca f F fin Fln 
1 [£s, Us] mı fa Fs £,/n F,/n 
2 [L2, U2] m2 fə F> fə/n En 
k [La Us Mk fk Fk f,/n Ein 


Definición: Media de datos agrupados 


zal 
Konp 


número de datos 

número de clases 

marca de la clase i (es el centro del intervalo de la clase) 
frecuencia de la clase i 


154 = 
s? = — J$ f(m, - X}? 
e 


número de datos 

número de clases 

marca de la clase i (es el centro del intervalo de la clase) 
frecuencia de la clase i 


X=L, + 

intervalo en el que se encuentra la mediana 

Límite inferior del intervalo i 

Número de observaciones 

Frecuencia acumulada del intervalo anterior al intervalo i 
frecuencia del intervalo i 

Amplitud de la clase 


Definición: Moda para datos agrupados 


Af. 


a A 
Af, + Af 

intervalo en el que se encuentra la moda 
L; Límite inferior del intervalo i 


Mo =L, + 


Afa Exceso de la frecuencia sobre la clase inferior inmediata 

Afs Exceso de la frecuencia sobre la clase superior inmediata 

A Amplitud de la clase 

Mo no es un dato real pero se supone que sería el dato más frecuente 
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Definición: Medidas de posición para datos agrupados 


„n 

ip T Fa 
f, 

intervalo en el que se encuentra el primer cuartil 

Límite inferior del intervalo i 

Número de observaciones 

Frecuencia acumulada del intervalo anterior al intervalo i 

frecuencia del intervalo i 

Amplitud de la clase 


Qj =L; + A, j=1,2,3 cuartiles 


Ejemplo: La tabla de frecuencia siguiente contiene los datos del número de artículos vendidos po 
un almacén en 50 días, agrupados en 6 clases 


Clase Intervalo Marca fin Fln 
[10, 20) 15 0.04 0.04 
[20, 30) 25 0.2 0.24 
[30, 40) 35 0.24 0.48 
[40, 50) 45 0.28 0.76 
[50, 60) 55 0.18 0.94 
[60, 70) 65 50 0.06 1 


Calcule la media, varianza, mediana, moda y los cuartiles 


mf = <¿L15N2) + (25)(10) +... + (65)(3)] = 40.4 


Varianza 


1 y 
S? = — f(m, - X)? 
e 


= Jas - 40.4)” +10(25 - 40.4)” +... + 3(65 — 40.4)”] = 164.12 


Mediana 

Para usar la fórmula debe localizarse la clase en la cual está la mediana 
Siendo n = 50, la mediana es el promedio entre los datos X(25), X(26) 
Estos datos se encuentran en la clase 4, por lo tanto 


Moda 
El intervalo en el que se considera que se encuentra la moda corresponde a la clase con mayor 
frecuencia, En el ejemplo, sería la clase 4 


A =40+ 2 Z 5 10 = 42.85 (es una valor supuesto para la moda) 
+ 
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Primer Cuartil 
Qı corresponde a la observación Xa3. Este dato se encuentra en la clase 3, por lo tanto 


n 
UE 
Qı =L; +A =30 
3 


Para comparar, anotamos los datos originales de los cuales se obtuvo la tabla de frecuencia: 


55 
29 
35 
58 
50 


24 
34 
43 
49 
58 


Con los cuales se obtuvieron directamente los siguientes resultados 
X= 40.16 
S° = 169.81 
X =41.5 
Qı = 32 
Mo = 32, 43, 48 (trimodal) 


Ejemplo. Se dispone de los siguientes datos incompletos en una tabla de frecuencia 


Clase Intervalo Marca F fin Fln 
[1, 2) 


6 


Completar la tabla de frecuencia 
Solución 


Se escriben directamente los intervalos, marcas de clase y algunos valores de frecuencia 


Clase Intervalo Marca fin Fln 
[1, 2) 1.5 
[2, 3) 2.5 
[3, 4) 3.5 
[4, 5) 4.5 
[5, 6) 5.5 
[6, 7) 6.5 
[7, 8) 7.5 
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Para continuar usamos la siguiente relación contenida en la tabla: 8/n = 0.2 
De donde se obtiene que N = 40. Conocido el valor de N, se puede continuar desde arriba 


Clase Intervalo Marca f fin Fln 

[1, 2) 1.5 1 0.025 0.025 
[2, 3) 2.5 5 0.125 0.15 
[3, 4) 3.5 0.25 0.40 
[4, 5) 4.5 0.3 0.7 

[5, 6) 5.5 0.2 0.9 

[6, 7) 6.5 0.05 0.95 
[7, 8) 7.5 0.05 1 


Finalmente, con la definición de frecuencia relativa se puede completar la tabla 


F fin 
1 0.025 
6 0.125 
16 0.25 
28 0.3 
36 0.2 
38 0.05 
40 0.05 


Clase Intervalo Marca 
[1, 2) 1.5 
[2, 3) 2.5 
[3, 4) 3.5 
[4, 5) 4.5 
[5, 6) 5.5 
[6, 7) 6.5 
[7, 8) 7.5 


Nino KIS one |= 


Calcular la media, varianza, mediana, moda y el primer cuartil 


Con las fórmulas correspondientes se pueden calcular las medidas descriptivas indicadas igual 
que en el ejercicio anterior 


EJERCICIOS 
Se dispone de los siguientes datos incompletos en una tabla de frecuencia 
Clase Intervalo Marca f F fin Fin 

1 2 
2 0.25 
3 [15, 20) 14 0.6 
4 
5 36 
6 0.975 
7 


Se conoce además que la media calculada con los datos agrupados es 19.7 


a) Complete la tabla de frecuencia 
b) Calcule la media, varianza, mediana, moda y el tercer cuartil 


Sugerencia: Al colocar los datos en la tabla quedarán dos incógnitas en la columna f. 


Con la fórmula del dato adicional dado X se obtiene otra ecuación con las mismas incógnitas. 
Estas dos ecuaciones son lineales y luego de resolverlas se puede continuar llenando la tabla. 
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2.10 INSTRUMENTOS GRÁFICOS ADICIONALES 


2.10.1 DIAGRAMA DE CAJA 
Es un dispositivo gráfico que se usa para expresar en forma resumida, algunas medidas 
estadísticas de posición: 


El diagrama de caja describe gráficamente el rango de los datos, el rango intercuartílico (Q3- Q1) 
los valores extremos y la ubicación de los cuartiles. Es una representación útil para comparar 
grupos de datos. Por ejemplo se resalta el hecho que el 50% de los datos está en la región 
central entre los valores de los cuartiles Q1 y Q3 


2.10.2 DIAGRAMA DE PUNTOS 
Si la cantidad de datos es pequeña, (alrededor de 20 o menos), se los puede representar 
mediante puntos directamente sin resumirlos en intervalos. 


2.10.3 DIAGRAMA DE PARETO 

Es un gráfico útil para identificar los efectos importantes de un proceso y las causas que los 
originan. La Ley de Pareto dice que de cualquier conjunto de eventos que pueden asociarse a 
un suceso, solamente unos pocos contribuyen en forma significativa mientras que los demás son 
secundarios. Generalmente hay únicamente 2 o 3 causas que explican mas de la mitad de las 
ocurrencias del suceso. 


Procedimiento para construir el diagrama de Pareto 
1) Categorice los datos por tipo de problema 
2) Determine la frecuencia y ordene en forma decreciente 
3) Represente la frecuencia relativa con barras 
4) Superponga la ojiva de la frecuencia relativa acumulada 
5) Determine cuales son las causas mas importantes que inciden en el suceso de interés 


Ejemplo 
Un fabricante ha realizado un conteo de los tipos de defectos de sus productos y ha registrado 
su frecuencia. Los resultados se resumen en el siguiente cuadro 


Tipo de Defecto | Frecuencia | Frecuencia Frecuencia Frecuencia 
relativa (%) acumulada acumulada 
relativa (%) 
0.33 66 0.33 
0.22 110 0.55 
0.17 144 0.72 
0.10 164 0.82 
0.07 178 0.89 
0.06 190 0.95 
0.05 200 1.00 


onimo n> 


Representar los datos con un Diagrama de Pareto 
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A B cC D E F G 


Diagrama de Pareto 


Se puede observar que más del 70% de los defectos de producción corresponden a los tipos A, 
B y C. Con esta información, una decisión adecuada sería asignar recursos para solucionar 
estos tipos de problemas pues son los que ocurren con mayor frecuencia. 


2.10.4 DIAGRAMA DE TALLO Y HOJAS 

Es un dispositivo utilizado cuando la cantidad de datos es pequeña. Permite describir la 
distribución de frecuencia de los datos agrupados pero sin perder la información individual de los 
datos. 


La longitud de cada fila ayuda a visualizar la frecuencia, en forma parecida a un histograma pero 
al mismo tiempo se pueden observar individualmente los datos. 


Se construye escribiendo verticalmente las primera(s) cifra(s) de los datos (tallo) y escribiendo 
las restantes cifras horizontalmente (hojas) 

Ejemplo. Los siguientes datos corresponden a la cantidad de artículos defectuosos producidos 
en una fábrica en 20 días: 

65, 36, 59, 84, 79, 56, 28, 43, 67, 36, 43, 78, 37, 40, 68, 72, 55, 62, 22, 82 

Dibuje el diagrama de tallo y hojas 

Se elige la cifra de las decenas como tallo y la cifra de las unidades como las hojas: 


Tallo Hojas 
2 


2 
3 
4 
5 
6 
7 
8 
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EJERCICIOS 


1) Dibuje un diagrama de caja para los siguientes datos 
1.42 1.26 1.10 1.33 1.41 
1.00 1.34 1.18 1.41 1.25 
1.35 1.21 1.81 1.65 1.18 


2) Dibuje un diagrama de Pareto con los siguientes datos 
46 4 26 15 52 2 5 


3) Realice un diagrama de tallo y hojas con los siguientes datos 
8.3 4.5 9.5 1.4 8.6 7.6 4.4 6.2 9.5 6.4 2.4 3.5 1.8 4.9 4.0 


4.6 6.1 8.7 3.1 6.0 1.7 6.2 2.4 5.8 5.0 4.6 5.4 9.4 3.4 4.0 
3.0 4.1 2.8 3.9 5.0 7.2 3.0 1.1 4.4 4.6 7.1 6.6 7.2 2.8 2.6 


MATLAB 


Dibujar un diagrama de Pareto para los siguientes datos 
>> x = [66 44 34 20 14 12 10]; Vector con los datos 
>> nombres = ('A' 'B' 'C' 'D' 'E' 'F','G”); Nombres para los componentes en el diagrama 


>> pareto(x, nombres) Dibujar el diagrama de Pareto 
>> grid on Agregar cuadrículas 


El dibujo resultante se muestra en la página anterior 


Dibujar un diagrama de caja 


>>x=[0.1 1.7 2.3 4.4 4.5 4.8 6.0 6.1 7.3 7.6 7.9 8.2 8.9 9.2 9.5); Vector con datos 


>> boxplot(x) Diagrama de caja 
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>> boxplot(x, 1, ", 0) 


$ 
E 
3 


ICM ESPOL 


Diagrama de caja 
horizontal, con muesca 
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2.11 MUESTRAS BIVARIADAS 


Es común tener que estudiar muestras con datos que miden dos características, siendo de 
interés determinar si hay alguna relación entre las dos variables. 


Para visualizar la relación entre los datos de una muestra bivariada, es útil graficarlos en una 


representación que se denomina diagrama de dispersión. 


Ejemplo 
Se tiene una muestra de las calificaciones de 10 estudiantes de los exámenes parcial y final. 


Examen 
Parcial 
Examen 
Final 


60 |74 |66 |34 |60 |66 |57 |71 |39 |57 


72 |82 |75 |46 |73 |74 |70 |82 |60 |61 


Dibuje el diagrama de dispersión. 


Sean X: Calificación del primer parcial (variable independiente) 
Y: Calificación del examen final (variable dependiente) 


Se observa que los datos están relacionados con una tendencia lineal con pendiente positiva 
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2.11.1 CORRELACIÓN 


Se usa el término correlación para describir la relación entre los datos de muestras bivariadas. 


Gráficos para apreciar la correlación entre dos variables 


0.8| 0.8 
0.6} 0.6 
0.4 q 0.4! 
0.2} e 0.2| 
0) m r a r 0 e r r r 
o 0.2 0.4 0.6 0.8 1 0 0.2 0,4 0.6 0.8 1 
Correlación lineal positiva Correlación lineal negativa 
0.8 1 
06 0.8 
0.6 
0.4! 
0.4 
0. $ 
2 0.2 
o à í za å y 0 ca” i ES à dJ 
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 
Variables no correlacionadas Correlación no lineal 


Ejemplo.- Se puede decir que los datos en el ejemplo anterior tienen correlación lineal positiva 


2.11.2 COEFICIENTE DE CORRELACION LINEAL 

Es una definición para cuantificar el grado de correlación lineal entre las variables. Es una 
medida adimensional útil para comparar variables con unidades de medida diferentes. Primero 
de establecen algunas definiciones impotantes 


Sean 
X, Y: Variables muestrales 
n: Tamaño de la muestra 


X, Y: Media aritmética de X, Y, respectivamente 


Sx, Sy: Desviaciones estándar muestrales 
Sxv: Covarianza muestral 


Definiciones 
Medias aritméticas muestrales 
== 1 n 
X==YX;, 
nia 


Varianzas muestrales 
1 


u [a — 
S =— y (x. -x)?, S 
X n— 1 i ) Y 
Covarianza muestral 


12 — — 
Sw = m SS x)(y; -y) 


YY 
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Definición: Coeficiente de correlación lineal 


Si r está cercano a 1, entonces X y Y tienen correlación lineal positiva fuerte 
Si r está cercano a -1, entonces X y Y tienen correlación lineal negativa fuerte 
Si r está cercano a O, entonces X y Y no están correlacionadas linealmente, o es muy débil 


Es importante que se mida la correlación entre variables cuya asociación tenga algún sentido 
Asmismo, si las variables no están correlacionadas linealmente, pudiera ser que si lo estén 
mediante una relación no lineal 


2.11.3 MATRIZ DE VARIANZAS Y COVARIANZAS 


Es una representación ordenada de las varianzas y las covarianzas entre las variables 


Si se usa la notación 
X,=*X, Sx, = S% 


X- = Y, Sx, = Sy 
Definición: Matriz de varianzas y covarianzas 


Es una matriz simétrica 


2.11.4 MATRIZ DE CORRELACION 
Es una representación ordenada de los coeficientes de correlación de cada variable con la otra 
variable y consigo misma. 


Si se usa la notación 
X1=X, Sx =Sx 
Xə = Y, Sx, = Sy 
Sxx, ES SIR 
hj =z z Coeficiente de correlación lineal entre X; y X; 
SxSx 
i j 
Definición: Matriz de correlación 


Es una matriz simétrica. Los valores en la diagonal principal son iguales a 1 


Las definiciones de matriz de varianzas-covarianzas y matriz de correlación, pueden 
extenderse directamente a más variables 
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Ejemplo 
Se tienen una muestra de las calificaciones de 10 estudiantes del primer parcial y del segundo 
parcial. 


Primer 
Parcial 
Segundo 
Parcial 


60 |74 |66 |34 |60 |66 |57 |71 |39 |57 


72 |82 |75 |46 |73 |74 |70 |82 |60 |61 


Encuentre el coeficiente de correlación lineal e interprete el resultado 
Solución 
Sean: 


X: Calificación del primer parcial 
Y: Calificación del segundo parcial 


= 172 69.5)? + (82 — 69.5)? + ... + (61- 69.5)?] = 121.8333 
-Jz - HEUER - 11.0378 
Sy = 20 MY, -Y) 
5 (60 - 58.4)(72 — 69.5) + (74 — 58.4)(82 - 69.5) + ... 
+ (57 - 58.4)(61- 69.5)] = 134.1111 


Coeficiente de correlación 
Sw _ 134.1111 


Z =z = 0.9416 
S,S,  (12.9031)(11.0378) 


El resultado indica que la correlación es fuertemente positiva 


Escriba las matrices de varianzas-covarianzas y de correlación. 
Sean X,=X, Sx =Sx 
X2=Y, S% =Sy 


Matriz de varianzas-covarianzas 


_|166.4889 134.1111 
-(134.1111 121.8333 
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Matriz de correlación 
Sxx 
Sx Sx, 


Con la definición: nj = , sustituyendo los valores respectivos se obtiene 


f 1 0.9416 
~ | 0.9416 1 


r22 


EJERCICIOS 


Los siguientes datos representan el tiempo, en horas, de entrenamiento de los trabajadores de 
una empresa, y el teimpo que tardaron, en minutos, en realizar la actividad encomendada 


Examen |30 |5 l12 la le ls l4 110 
Parcial 
Examen lg |12 lg |10 |13 |11 12 8 
Final 


a) Dibuje el diagrama de dispersión e indique que tipo de correlación parecen tener las variables 
X y Y 

b) Escriba la matriz de varianzas y covarianzas 

c) Escriba la matriz de correlación 

d) Calcule el coeficiente de correlación e interprete el resultado 
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MATLAB 


Vectores con datos de dos variables 


>> x=[60 74 66 34 60 66 57 71 39 57]; 
>> y=[72 82 75 46 73 74 70 82 60 61]; 


Diagrama de dispersión. El gráfico aparece en la primera página de esta sección 


>> scatter(x,y,'k") 
>> grid on 


Matriz de varianzas y covarianzas 


>> v=cov(x,y) 
v= 
166.4889 134.1111 
134.1111 121.8333 


Matriz de correlación 


>> r=corrcoef(x,y) 
r= 
1.0000 0.9416 
0.9416 1.0000 


Varianza, covarianza y coeficiente de correlación: 
>> vX = v(1,1) Varianza de X 
vx = 


166.4889 


>> vy = v(2,2) Varianza de Y 


121.8333 


>> vxy = v(2,1) Covarianza de X, Y 
vxy = 
134.1111 


>> rxy = r(2,1) Coeficiente de correlación de X, Y 
rxy = 
0.9416 


>> v=diag(cov(x,y)) Vector con las varianzas (es la diagonal de la matriz) 
v= 
166.4889 
121.8333 


>> s=sqrt(diag(cov(x,y))) Vector con las desviaciones estándar 
$= 
12.9031 
11.0378 
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3 FUNDAMENTOS DE LA TEORÍA DE LA PROBABILIDAD 


En esta unidad se escriben algunas definiciones necesarias para fundamentar el estudio de la 
teoría de la probabilidad. 


3.1 EXPERIMENTO ESTADÍSTICO 


Es un procedimiento que se realiza con el propósito de obtener observaciones para algún 
estudio de interés. Un experimento requiere realizar pruebas o ensayos para obtener resultados. 


Un experimento estadístico tiene las siguientes características 

1. Se conocen todos los resultados posibles antes de realizar el experimento estadístico. 

2. No se puede predecir el resultado de cada ensayo realizado (propiedad de aleatoriedad) 

3. Debe poderse reproducir o repetir el experimento en condiciones similares. 

4. Se puede establecer un patrón predecible a lo largo de muchas ejecuciones del experimento. 
Esta propiedad se denomina regularidad estadística. 


Ejemplos 
1) Lanzar un dado y observar el resultado obtenido. 


2) Medir la altura de una persona 
3) Observar el tipo de defecto de un artículo producido por una fábrica 


3.2 ESPACIO MUESTRAL 


El espacio muestral, representado con la letra S, es el conjunto de todos los resultados posibles 
de un experimento. Cada elemento de S se denomina punto muestral. 


Según la naturaleza del experimento, los puntos muestrales pueden determinar que S sea 
discreto o continuo. 


S es discreto si sus elementos pueden ponerse en correspondencia con los números naturales. 
En este caso S puede se finito o infinito. 


S es continuo si los resultados corresponden a algún intervalo de los números reales. En este 


caso S es infinito por definición. 


Ejemplos 
Experimento: 
Espacio muestral: 


Propiedades de S: 


Experimento: 


Espacio muestral: 


Propiedades de S: 


Experimento: 


Espacio muestral: 


Propiedades de S: 


Experimento: 
Espacio muestral: 


Propiedades de S: 


Lanzar un dado y observar el resultado 
S=(1, 2, 3, 4, 5, 6] 
discreto y finito 


Elegir al azar dos artículos de un lote y observar la cantidad de artículos 
defectuosos 

S=(0, 1, 2} 

discreto y finito 


Lanzar un dado y contar la cantidad de intentos hasta 
obtener como resultado el 6 

S=[1,2,3,...) 

discreto e infinito 


Medir el peso en gramos de un artículo elegido al azar 
S={x | x>0, xeR} 
continuo (infinito por definición) 
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3.3 EVENTOS 


Un evento es algún subconjunto del espacio muestral S. Se usan letras mayúsculas para denotar 
eventos. 


Ejemplo: 
Experimento: Lanzar un dado y observar el resultado 
Espacio muestral: S = (1, 2, 3, 4, 5, 6] 


Sea el evento de interés: A: el resultado es un número par 


Entonces: A = (2, 4, 6) 


Definiciones 


Evento nulo: No contiene resultados 
Evento simple: Contiene un solo resultado 


Eventos excluyentes: Eventos que no contienen resultados comunes 


3.4 O-ALGEBRA 

El soporte matemático natural para el estudio de las propiedades de los eventos es la Teoría de 
Conjuntos. Pero existe un álgebra formal específica para su estudio denominada o-algebra 
(sigma álgebra). 


o-algebra Á es una colección no vacía de subconjuntos de S tales que 


1) SeáÁ 
2) Si A € A, entonces Ale Á 
3) Si Aj, Az, ... € A, entonces Uj24A¡ € A 


En resumen o-algebra Á incluye a S, a sus subconjuntos y es cerrada con respecto a la 
operación de unión de conjuntos. 
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3.5 TÉCNICAS DE CONTEO 


En esta sección revisamos algunas fórmulas básicas para conteo de elementos de conjuntos con 
las cuales, en las siguientes unidades, se podrá asignar valores de probabilidad a eventos. 


Definción: Principio básico del conteo 


Si un conjunto tiene n elementos y otro conjunto tiene m elementos, entonces 
existen nxm formas diferentes de tomar un elemento del primer conjunto y otro 
elemento del segundo conjunto. 


Ejemplo: Para ir de su casa a la universidad un estudiante debe ir primero a una estación 
intermedia de transferencia: 
Sean A: Casa del estudiante 

B: Estación intermedia de transferencia 

C: Universidad 


Suponga que hay tres líneas de buses para ir de A a B y que desde B para llegar a C, puede 
usar el bus de la universidad o el carro de un amigo. 


¿De cuantas formas diferentes puede ir de su casa a la universidad? 


Respuesta. Sean 1, 2, 3 las líneas de buses de A a B, y 4, 5 las formas de ir de B a C. 
Representemos las diferentes opciones mediante un diagrama de árbol. 


Para ir de A a B hay 3 formas diferentes y para ir de B a C, hay 2 formas diferentes. 
Por lo tanto, para ir de A a C hay 3x2 = 6, formas diferentes. 


El conjunto de resultados posibles para este experimento es: 
S = ((1, 4), (1, 5), (2, 4), (2, 5), (3, 4), (8, 5} 


Ejemplo. ¿Cuantos números de placas diferentes pueden existir en la provincia del Guayas? 


Respuesta. Cada número de placa tiene la siguiente estructura: 
G (letra) (letra) (dígito) (dígito) (dígito) 


Hay 26 letras diferentes (sin incluir ñ) y 10 dígitos diferentes. Si no importa repetir letras o dígitos 
en cada placa, el total es: 26 x 26 x 10 x 10 x 10 = 676000 
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Ejemplo. Un grupo de 10 personas debe elegir a su directiva; presidente, secretario, tesorero. 
Todos pueden ser elegidos, pero una persona no puede tener más de un cargo. ¿De cuantas 
maneras diferentes puede realizarse la elección? 


Respuesta 

Para elegir presidente hay 10 formas diferentes 
Para elegir secretario quedan 9 formas diferentes 
Para elegir tesorero quedan 8 formas diferentes 


Por el principio básico del conteo, hay 10 x 9 x 8 = 720 formas diferentes de realizar la elección. 


EJERCICIOS 


1) Un taller de mantenimiento tiene tres técnicos: A, B, C. Cierto día, dos empresas X, Y 
requieren un técnico cada una. Describa el conjunto de posibles asignaciones si cada técnico 
puede ir solamente a una empresa. 


2) En el ejercicio anterior, suponga que el mismo técnico debe ir primero a la empresa X y luego 
a la empresa Y. Describa el conjunto de posibles asignaciones. 


3) Hay tres paralelos para el curso de Cálculo Diferencial y tres paralelos para Algebra Lineal. 
Un estudiante desea tomar ambos cursos. Escriba el conjunto de posibles asignaciones. 


4) En un curso preuniversitario los exámenes solían contener 20 preguntas y cada una con 
cinco opciones. ¿De cuantas formas diferentes se podía contestar el examen? 
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3.6 PERMUTACIONES 


Son los arreglos diferentes que se pueden hacer con los elementos de un conjunto. 
En estos arreglos se debe considerar el orden de los elementos incluidos. 


Suponga un conjunto de N elementos diferentes, del cual se toma un arreglo de r elementos. 


Si se incluye un elemento en cada arreglo, la cantidad de arreglos diferentes que se obtiene es: 
n (Cualquiera de los n elementos puede ser elegido) 


Si se incluyen 2 elementos en cada arreglo, la cantidad de arreglos diferentes que se obtiene es 
n(n-1) (Para elegir el segundo elemento quedan n - 1 disponibles) 


Si se incluyen 3 elementos en cada arreglo, la cantidad de arreglos diferentes que se obtiene es 
n(n-1)(n-2) (Para elegir el tercer elemento quedan n - 2 disponibles) 


Si se incluyen Y elementos en cada arreglo, la cantidad de arreglos diferentes que se obtiene es 
n(n-1)(n-2). . .(n-r+1) (Para elegir el elemento r quedan n - r + 1 disponibles) 


Con eso se puede escribir la fórmula general para la cantidad de permutaciones: 
Definición: Número de permutaciones 


Número de permutaciones con N elementos de un conjunto del cual se toman 
arreglos conteniendo r elementos 


nPr = n(n-1)(n-2). . .(n-r+1) 


Ejemplo. Un grupo de 10 personas debe elegir a su directiva; presidente, secretario, tesorero. 
Todos pueden ser elegidos, pero una persona no puede tener más de un cargo. ¿De cuantas 
maneras diferentes puede realizarse la elección?. Use la fórmula (7.1) 


Respuesta. Los arreglos posiles son permutaciones pues el orden en cada uno si es de interés. 
Por lo tanto 
n =10, r =3, 10P3= 10x9x8 = 720 


La fórmula de permutaciones se puede expresar en notación factorial completando el producto: 


Definición: Fórmula alterna para calcular el número de permutaciones 


n(n — D(n-2)...(n—r+D(n-r(n-—r-29...(21(1) _ n! 
(n-r)(n -r - 3...(2)(9) (n—r)! 


nPr = n(n-1)(n-2). . .(n-r+1) = 
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CASOS ESPECIALES 


3.6.1 PERMUTACIONES CON TODOS LOS ELEMENTOS 


Definición: Permutaciones con todos los elementos de un conjunto 


nPn ni, N: Cantidad de elementos del conjunto 


AT 


Ejemplo: ¿Cuantos arreglos diferentes se pueden hacer colocando en una hilera 5 lápices de 
colores? 


Respuesta: Son permutaciones con todos los elementos: 5Ps = 5! = 120 


3.6.2 ARREGLO CIRCULAR 


Suponga un grupo conteniendo N elementos diferentes. Un arreglo circular es una permutación 
con todos los elementos del grupo. Para que cada arreglo sea diferente, uno de los elementos 
debe mantenerse fijo y los otros pueden cambiar el orden. 


Definición: Número de permutaciones en un arreglo circular 


Si N es el número total de elementos, la cantidad de arreglos diferentes es: (n-1)! 


Ejemplo: ¿De cuantas formas diferentes pueden colocarse 5 personas alrededor de una mesa? 


Respuesta: 4! = 24 
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3.6.3 PERMUTACIONES CON ELEMENTOS REPETIDOS 

Si del total de N elementos, Ny fuesen repetidos, entonces los arreglos tendrían formas idénticas 
cuando se considera el orden de los N4 elementos repetidos. Existen N1! formas de tomar los Ny 
elementos repetidos, por lo tanto, la cantidad de permutaciones se reduciría en N4! 


Definición: Cantidad de permutaciones con N elementos de los cuales Ny son repetidos 


n! 


nz! 


Este razonamiento, puede extenderse cuando hay maá grupos de elementos repetidos 


Sean: NM: Cantidad total de elementos 
nı: Cantidad de elementos repetidos de un tipo 
n2: Cantidad de elementos repetidos de otro tipo 


Se debe cumplir que N1 + N2 = N 
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Definición: Permutaciones con dos tipos de elementos repetidos 


N elementos de los cuales N1 son de un tipo y M2 son de otro tipo 
n! 


nı! n2! 


Ejemplo: En una caja hay 3 botellas de vino tinto y 2 de vino blanco. Las botellas de cada uno 
de los dos tipos de vino tienen la misma marca y forma. ¿De cuantas formas diferentes pueden 
colocarse en una hilera las 5 botellas? 


Respuesta: Son permutaciones con elementos repetidos con n=5, n,=3, n,=2, 


l 
5! -10 
2! 3! 


La fórmula se puede generalizar a más grupos con elementos repetidos 


Definición: Permutaciones con N elementos y k grupos con elementos repetidos 


Sean n: total de elementos distribuidos en k grupos 
N1: Número de elementos repetidos de tipo 1 
N2: Número de elementos repetidos de tipo 2 


Nk: Número de elementos repetidos de tipo k 
Siendo Ny + n2+ ... +NK = N 


Cantidad de arreglos diferentes que se pueden obtener 
n! 


n13!In2!...nk! 


Ejemplo. ¿Cuántos arreglos diferentes pueden hacerse con las letras de la palabra 
MATEMATICA? 


n=10. 


n,=2 (repeticiones de la letra M) 
n2=3 (repeticiones de la letra A) 
na=2 (repeticiones de la letra T) 


las otras letras ocurren una sola vez 


I 
Respuesta: 10: = 151200 
2! 3! 2!1! 1! 1! 
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3.7 COMBINACIONES 


Son los arreglos que se pueden hacer con los elementos de un conjunto. El orden de los 
elementos en cada arreglo no es de interés. Cada arreglo se diferencia únicamente por los 
elementos que contiene. 


Sean N: Cantidad de elementos del conjunto 
r: Cantidad de elementos en cada arreglo 


n 
Se usa la notación nCr, o Ens O para denotar la cantidad de combinaciones de tamaño r 
r 


que se pueden realizar con los N elementos distintos de un conjunto 


Para obtener la fórmula del número de combinaciones, consideremos la fórmula de las 
permutaciones. Debido a que en las combinaciones no interesa el orden de los elementos en 
cada arreglo, es equivalente a tener permutaciones con elementos repetidos: 


Definición: Número de combinaciones 
Conjunto con N elementos del cual se toman arreglos conteniendo r elementos 


C- nP n! _n(n-J(n-3...(n-r+1) 
A (n-r)ir! r! 


Ejemplo. Un bar dispone de 10 frutas diferentes de las cuales se pueden elegir tres para un 
batido. ¿De cuantas maneras diferentes puede hacerse la elección? 


Respuesta: Son combinaciones pues el orden de las frutas no es de interés. 


|] 
n=10, r=3, > 1003 = 10! =120 
71 31 


Ejemplo. En un grupo de 15 personas, 7 leen la revista A, 5 leen la revista B y 6 ninguna 
revista. Encuentre la cantidad de personas que leen al menos una revista 


Respuesta. Para el cálculo puede usarse una representación gráfica de conjuntos, pero una 
representación tabular facilita hallar el número de elementos de cada evento. 


Primero se colocan en el cuadro los datos (color negro). y luego se completa el cuadro con los 
valores faltantes (color azul). Para los cálculos se ha seguido el orden indicado en el dibujo. 


— A A 
ma e EIA LD» 
LA e A 
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Del cuadro se obtiene directamente que 


4 leen A, únicamente 
2 leen B, únicamente 
3 leenAyB 
Por lo tanto, 9 personas leen al menos una revista 


Cantidad de formas diferentes de elegir cuatro personas que al menos lean una revista 


Respuesta: 9C4 = i =126 


4! 


Cantidad de formas diferentes de elegir 4 personas de tal manera que 2 solamente lean A, 1 
solamente B, y 1 no lea revistas. 


Respuesta: 

Cantidad de formas diferentes de elegir 2 de las que solamente leen A: 4C2= 6 
Cantidad de formas diferentes de elegir 1 de las que solamente leen B: 2C1=2 
Cantidad de formas diferentes de elegir 1 de las que no leen revistas: C1 = 6 


Por el principio básico del conteo el resultado final es: 6x2x6=72 


EJERCICIOS 


1) Una caja contiene cinco libros de Matemáticas y una segunda caja contiene 4 libros de Física. 
¿De cuantas maneras diferentes se puede tomar un libro para materia? a) si todos los libros son 
diferentes, b) si los libros de cada materia son iguales 


2) Para un proyecto se requiere dos ingenieros y tres técnicos. Si hay cuatro ingenieros y cinco 
técnicos disponibles. ¿De cuantas maneras se puede hacer la elección? 


3) Una caja contiene 6 baterías de las cuales 2 son defectuosas. ¿De cuantas maneras se 
pueden tomar tres baterías de tal manera que solamente haya una defectuosa? 


4) En un grupo de 60 estudiantes, 42 están registrados en Análisis Numérico, 38 en Estadística 
y 10 no están registrados en ninguna de estas dos materias. ¿Cuantos están registrados 
únicamente en Estadística? ¿Cuantos están registrados en Estadística pero no en Análisis 
Numérico? 


5) El cable de seguridad de una bicicleta tiene un candado que contiene 4 discos. Cada disco 
tiene seis números. Si probar cada combinación toma cinco segundos, determine el tiempo 
máximo que le tomará a una persona encontrar la clave para quitar el cable de seguridad que 
sujeta a la bicicleta 
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MATLAB 


>> c = nchoosek(9,4) 
c = 126 

>> r = factorial(5) 

r= 120 

>> x=[2 35 7]; 

>> lista=combnk(x,3) 
lista = 


>> n=length(lista) 
n= 4 

>> x=[3 5 7]; 

>> lista=perms(x) 
lista = 


>> xX = ['Juan', 'Pedro', 'Pablo'y; 
>> lista=combnk(x,2) 
lista = 

'“Juan' 'Pedro' 

Juan' —'Pablo' 

'Pedro' 'Pablo' 


ICM ESPOL 


Cálculo de Ca 


Factorial de 5 


Conjunto de 4 elementos 
Lista de combinaciones de 3 elementos 


Número de combinaciones 


Conjunto de tres elementos 
Lista de permutaciones 


Conjunto con tres elementos 
Lista de combinaciones de 2 elementos 
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3.8 PROBABILIDAD DE EVENTOS 


El valor de la probabilidad de un evento es una medida de la certeza de su realización 


Sea A un evento, entonces P(A) mide la probabilidad de que el evento A se realice 


P(A)=0 es la certeza de que no se realizará 
P(A)=1 es la certeza de que si se realizará 
P(A)=0.5 indica igual posibilidad de que se realice o no se realice. 


Asignación de valores de probabilidad a eventos 

1) Empírica 
Es la proporción de veces que un evento tuvo el resultado esperado respecto al total de 
intentos realizados. 


Ejemplo. Se han realizado 20 ensayos en un experimento en condiciones similares. Cuatro 
ensayos tuvieron el resultado esperado. Entonces, la probabilidad que en el siguiente ensayo 


se obtenga el resultado esperado es aproximadamente: 4/20=0.2=20% 


2) Mediante modelos matemáticos 
Para muchas situaciones de interés puede definirse un modelo matemático para determinar la 
probabilidad de eventos. Algunos de estos modelos son estudiados en este curso, tanto para 
variables discretas como continuas. 


3) Asignación clásica 
Su origen es la Teoría de Juegos. El valor de probabilidad de un evento es la cantidad de 
resultados que están asociados al evento de interés, respecto del total de resultados posibles 
(espacio muestral). Esta forma de asignar probabilidad es de uso frecuente. 


Sean S: Espacio muestral 

A: Evento de interés . 
Si N(S) y N(A) representan su cardinalidad (número de elementos) 
N(A) 


Entonces la probabilidad del evento A es: P(A)= N(S) 


Ejemplo. Calcule la probabilidad que al lanzar una vez un dado y una moneda se obtenga un 
número impar y sello 


Si c, s representan los valores cara y sello de la moneda, entonces el espacio muestral es: 
S = {(1,c),(2,c),( ,0),(4,c),(5,C),(6,C), ( ,5),(2,5),(3,8),( ,S),(5,5),(6,s)) 


Mientras que el evento de interés es: A = ((1,8),(3,s),(5,s)) 


Repuesta: P(A)= N(A)/N(S) = 3/12 = 1/4 = 0.25 = 25% 


Ejemplo. En un grupo de 15 personas, 7 leen la revista A, 5 leen la revista B y 6 ninguna 
revista. 
Encuentre la probabilidad que al elegir al azar una persona, ésta lea al menos una revista 


Respuesta: Representación tabular de datos: 


Leen B No leen B 
Leen A 4 

No leen A 6 

10 
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4 únicamente leen A 

2 únicamente leen B 

3 leen A y B 

Por lo tanto, 9 personas leen al menos una revista 


Sean 
E: Evento que la persona elegida al azar lea al menos una revista 
S: Incluye todas las formas diferentes para elegir una persona 
Entonces 
P(E) = N(E)/N(S) = 9/15 = 0.6 


La probabilidad que al elegir al azar tres personas, dos lean ambas revistas y una no lea 
revistas. 


Respuesta: 
Sean 
E: Evento que dos personas lean ambas revistas y una no lea revistas 
S: Incluye todas las formas diferentes de elegir tres personas 
N(S) = 1503 = 455 


Cantidad de formas diferentes de elegir 2 de las 3 que leen ambas 
302=3 


Cantidad de formas diferentes de elegir 1 de las 6 que no leen revistas 
6C1=6 


Por el Principio Básico del Conteo, la cantidad de elementos en el evento E 
N(E) =3x6= 18 


Por lo tanto 
P(E) = N(E)/N(S) = 18/455 = 0.0396 = 3.96% 


Ejemplo. Suponga que se ha vendido una serie completa de las tablas del Peso Millonario. 
Calcule la probabilidad que al comprar una tabla usted sea el único ganador del premio. 


Respuesta: 


Sea S: conjunto de tablas del Peso Millonario (cada tabla es diferente y contiene 15 números 
diferentes elegidos al azar entre los enteros del 1 al 25), 
N(S) = 25C15 = 3268760 (cantidad de tablas diferentes que se generan) 


E: evento de tener la tabla premiada (solamente hay una tabla premiada) 
P(E) = N(E)/N(S) = 1/3268760 = 0.0000003 (cercano a cero) 


Para tomar una idea de lo pequeño que es este número imagine cual sería su chance de sacar 
el premio si en una caja hubiesen 1000 tablas entre las que está la tabla ganadora. Usted debe 
elegir al azar la tabla ganadora. Es muy poco probable que acierte. 


Ahora suponga que en en una bodega hay 3268 cajas, cada una con 1000 tablas. Primero 
usted debe elegir al azar la caja que contiene la tabla ganadora, y luego de esta caja elegir al 
azar la tabla ganadora. Concluimos que su chance de obtener el premio en verdad es un sueño 
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3.8.1 PROBABILIDAD DE LOS ELEMENTOS DE UN EVENTO 


Cada uno de los elementos de un evento tiene el mismo valor de probabilidad 


Definición: Probabilidad de eventos simples 


Sean S: Espacio muestral, con N puntos muestrales 
E;¡: Evento simple (contiene un solo punto muestral) 
Entonces para cada evento simple 


P(E) =1/N, ¡=1,2,3,..., N 
N 
Por lo tanto > PE,) =1 
21 
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Si un evento A contiene k puntos muestrales, entonces 
P(A)=k (1/N) 


Ejemplo. Al lanzar un dado, ¿Cual es la probabilidad que al lanzarlo salga un número par? 


Respuesta: S= {1, 2, 3, 4, 5, 6) 
A = (2, 4, 6) (evento de interés) 
P(A) = P(E+) + P(E2) + P(E3) = 3 (1/6) = 0.5 


Ejemplo. Suponga que un dado está desbalanceado de tal manera que se conoce que la 
probabilidad que salga el número 6 es el doble que los otros números. ¿Cual es la probabilidad 
que al lanzarlo salga un número par? 


Respuesta: En este ejempl los puntos muestrales no tienen el mismo la misma probabilidad 
1/6. 

Sea x, probabilidad que salga alguno de los números 1, 2, 3, 4, 5. Por lo tanto, la probabilidad 
que salga el número 6 es el doble, 2x 


Entonces x+tx+tx+x+x+2x=1 > x=1/7 


Sean A: Evento que salga un número par, A = {2, 4, 6} 
E;: Evento simple correspondiente a cada resultado i 
P(A) = P(E2) + P(E4) + P(Eg) = 1/7 + 1/7 + 2/7 = 4/7 


3.9 AXIOMAS DE PROBABILIDAD DE EVENTOS 
En esta sección se introduce la formalidad matemática para la teoría de la probabilidad de 
eventos. 
Sea S: Espacio muestral (suponer discreto y finito) 
= Evento de S 
P(E): Probabilidad del evento E 


R: Conjunto de los reales 


P es una función que asocia a cada evento E de S un número real 


P:S>R, 
E>P(E) domP=S, rgP = [0, 1] 


P es una función de probabilidad y cumple los siguientes axiomas 
1) P(E)20 


2) P(S)=1 
3) E, Eze S a En E= Ø > P(E, u E2) = P(E,) + P(E3) 
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El tercer axioma establece que si dos eventos son mutuamente excluyentes entonces la 
probabilidad del evento unión de estos eventos es la suma de las probabilidades de cada 
evento. Esta propiedad se puede extender a más eventos. 


Algunas propiedades de eventos con demostraciones basadas en los axiomas 


1) (D)=0 Probabilidad de un evento nulo 

Demostración: S = Sug eventos excluyentes 
=> P(S) = P(S) + P(D) por el axioma 3 
>1=1+P(Ø) por el axioma 2 
>P(9D) = 0 

2) P(E°)=1- P(E) Probabilidad del evento complemento 

Demostración: S = ELE’? eventos excluyentes 
>P(S) = P(E) + P(E’) por el axioma 3 
>1 = P(E) + P(E°) por el axioma 2 


>P(E°) = 1 — P(E) 


3) Sean A,B eventos de S, tales que A c B, entonces P(A) < P(B) 


Demostración: Si A está incluido en B se puede escribir 
B=AU(AL AB) eventos excluyentes 
P(B) = P(A) + P(A? ^ B) por el axioma 3 
P(B) 2 P(A) por el axioma 1 
4) Sea A un evento cualquiera de S, entonces 0 < P(A) <1 
Demostración ØÕØcAcS 
P(D ) < P(A) < P(S) por la propiedad 3 
O<P(A) < 1 por la propiedad 1 y axioma 2 


5) P(ANBS) = P(A - B) = P(A) - P(ANB) 

Demostración: A = (A — BJu(AnB) eventos excluyentes 
>P(A) = P(A-B)+P(ADB) axioma 3 
>P(A - B) = P(A) — P(ANB) 


6) P(AUB) = P(A) + P(B) - P(AœB) Regla aditiva de la probabilidad 
Demostración: AVB = (A - Bju(ANB)juU(B — A) eventos excluyentes 
>P(AUB) = P(A - B) + P(ANB) + P(B- A) axioma 3 
>P(AUB) = P(A — B) + P(ANB) + P(B — A) + P(ANB) 
— P(ANB) 
con la propiedad 5 
>P(AUB) = P(A) + P(B) —- P(ANB) 
Ejemplo. En un grupo de 15 personas, 7 leen la revista A, 5 leen la revista B y 6 ninguna 
revista. Encuentre la probabilidad que al elegir al azar una persona, ésta lea al menos una 
revista 


Respuesta: Representación tabular para los datos: 


Leen B No leen B 
Leen A 3 4 
No leen A 2 6 


8 
5 0 | 15 | 


4 únicamente leen A 
2 únicamente leen B 
3leenAyB 


Entonces, 9 personas leen al menos una revista 
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Usamos ahora las reglas de la probabilidad de eventos para resolver este problema 


Sean los eventos 
A: la persona elegida al azar lea la revista A 
B: la persona elegida al azar lea la revista B 
AUB: la persona elegida al azar lee al menos una revista 
Por lo tanto  P(AUB) = P(A) + P(B) - P(ANB) = 7/15 + 5/15 — 3/15 = 9/15 = 0.6 


Ejemplo. Sean A, B eventos de S, tales que 
P(A) = 0.35, P(B°) = 0.27, P(A°^B) = 0.59 
Calcule 
a) P(ANB) 
) P(AUB) 
c) P(AUBS) 
) 


P(AUB?) 


Respuesta 
Una representación tabular de los valores de probabilidad facilita los cálculos. 


B 


B° 


A 


0.14 


0.21 


0.35 


A® 


0.59 


0.06 


0.65 


0.73 


0.27 


Cada respuesta se la obtiene directamente de la tabla: 
a) P(ANB) = 0.14 
) P(AUB) = P(A) + P(B) - P(ANMB) = 0.35 + 0.73 - 0.14 = 0.94 
c) P(AUBS) = P(A) + P(B") — P(ANBS) = 0.35 + 0.27 — 0.21 = 0.41 
) P(ATUBS) = P(AS) + P(B" ) — P(ABS)= 0.65 + 0.27 — 0.06 = 0.86 


LAS PROPIEDADES PUEDEN EXTENDERSE A MÁS EVENTOS 


Sean A, B, C, tres eventos del espacio muestral S 
Definiciones 


Si A, B, C son eventos mutuamente excluyentes, 
P(AUBUC) = P(A) + P(B) + P(C) 


Si A, B, C son eventos cualesquiera 


P(AUBUC) = P(A) + P(B) + P(C) - P(AœB) - P(AnC) - P(BAC) + P(ADBAC) 
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EJERCICIOS 


1) En una fábrica hay cinco motores, de los cuales tres están defectuosos. Calcule la 
probabilidad que al elegir dos motores al azar, 

a) Ambos estén en buen estado 

b) Solamente uno esté en buen estado 

c) Al menos uno esté en buen estado 


2) En un grupo de 60 estudiantes, 42 están registrados en Análisis Numérico, 38 en 
Estadística y 10 no están registrados en ninguna de estas dos materias. Calcule la probabilidad 
que al elegir entre los 60 algún estudiante al azar, 

a) Esté registrado únicamente en Estadística 

b) Esté registrado en ambas materias 


3) Sean A, B eventos cualesquiera de un espacio muestral. 
Si P(A)=0.34, P(B)=0.68, P(AœB)=0.15, calcule 

a) P(AUB) 

b) P(ANBS) 

c) P(AUBS) 


4) En una encuesta en la ciudad se ha hallado que 
La probabilidad que una familia tenga TV es 0.7 
La probabilidad que una familia tenga reproductor de DVD es 0.4 
La probabilidad que una familia tenga TV pero no tenga reproductor de DVD es 0.36 
Calcule la probabilidad que una familia tenga ni TV ni reproductor de DVD 
a) Use una representación tabular 
b) Use únicamente reglas de probabilidad 
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3.10 PROBABILIDAD CONDICIONAL 


La probabilidad de un evento puede depender o estar condicionada a la probabilidad de otro 
evento. 


Ejemplo. Un experimento consiste en lanzar una vez un dado y una moneda. 


Si c, s representan los valores cara y sello de la moneda, entonces el espacio muestral S es: 


S = ((1,c),(2,c),(3,c),(4,c),(5,c),(6,C),(1,5),(2,5),(3,5),(4,5),(5,5),(6,5)) 
Sea el evento de interés, A: obtener el número 5 y sello 
Entonces P(A) = 1/12 = 0.0833 


Ahora, suponga que luego de lanzar el dado y la moneda, nos informan que el número del 
dado fue impar. ¿Cual es la probabilidad del evento A dado el evento indicado? 


Sea B este evento conocido: B = ((1,c),(3,c),(5,c),(1,s),(3,5),(5,s)) 


Entonces, la probabilidad del evento A dado el evento B, es 1/6 = 0.1667 


Definición: Probabilidad condicional 


Sean A, B eventos de S 
La probabilidad condicional del evento A dado el evento B se escribe P(A|B) y es: 


P(ANB) 
P(B) 


P(A |B) = , P(B)= 0 


Para justificar esta importante fórmula, suponga que S contiene solo dos eventos, A y B. 
En la siguiente tabla se ha escrito simbólicamente el número de elementos de cada evento, 
siendo N el total de elementos del espacio muestral 


B B° 
A nı n2 
AS n3 na 
Entonces, 
n, 
P(A |B) = n, __ N _P(ANB) 
n +n, N, +n, P(B) 
N 


P(A|B) es una función de probabilidad pues cumple los axiomas anteriormente expuestos. 


Ejemplo.- Use la fórmula de la probabilidad condicional para el ejemplo anterior, 


AMB = {(5, s} > para) A EET 
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Ejemplo. Las enfermedades A y B son comunes entre las personas de una región. Suponga 
conocido que 10% de la población contraerá la enfermedad A, 5% la enfermedad B, y 2% 
ambas enfermedades. 


Encuentre la probabilidad que cualquier persona 
Contraiga al menos una enfermedad 
Contraiga la enfermedad A pero no B 
Contraiga la enfermedad A dado que ya contrajo B 
Contraiga la enfermedad B dado que no contrajo A 
Contraiga ambas enfermedades dado que ya contrajo al menos una. 


Para facilitar el cálculo completamos el cuadro de probabilidades, siendo A y B 
los eventos que corresponden a contraer las enfermedades A y B respectivamente 


B 


B° 


A 


0.02 


0.08 


0.10 


AS 


0.03 


0.87 


0.90 


0.05 


0.95 
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Ahora se puede expresar cada pregunta en forma simbólica y obtener la respuesta 
directamente de cuadro 


Respuestas 
a) P(AUB) = P(A) + P(B) - P(ANB) = 0.1 + 0.05 — 0.02 = 0.13 = 13% 
b) P(ANBS = 0.08 = 8% 
c) P(A|B) = P(ADB)/P(B) = 0.02/0.05 = 0.4 = 40% 
d) P(B|A’) = P(BAAS/P(AS) = 0.03/0.9 = 0.3 = 30% 
e) P(ASB)P(AUB)=P[(ANB) n (AUB)I/P(AUB)=P(ABJ/P(AUB) = 0.02/0.13 = 0.1538 


Ejemplo. En una empresa hay 200 empleados, de los cuales 150 son graduados, 60 realizan 
trabajo administrativo. De estos últimos, 40 son graduados. Si se toma al azar un empleado, 
encuentre la probabilidad que, 

a) Sea graduado y no realiza trabajo administrativo. 

b) Sea graduado dado que no realiza trabajo administrativo. 

c) No sea graduado dado que realiza trabajo administrativo 


Para facilitar el cálculo completamos el cuadro con la cantidad de elementos de cada evento 
que los representamos con: 

G: el empleado es graduado 

A: el empleado realiza trabajo administrativo 


A 
G 40 150 
G° 20 50 
60 
Como antes, los datos faltantes se los ha completado con color azul 


Ahora se puede expresar cada pregunta en forma simbólica y obtener la respuesta 
inmediatamente 


Respuestas 
a) P(GnNA') = 110/200 = 0.55 
b) P(G|AS) = P(GAANP(AS) = (110/200) / (140/1200) = 110/140 = 0.7857 
c) P(G“]A) = P(G°^A)IP(A) = (20/1200) / (60/200) = 20/60 = 0.3333 
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EJERCICIOS 


1) Sean los eventos A, B tales que P(A)=0.4, P(B)=0.3, P(AMB)=0.1, encuentre 
a) P(A]B) 
b) P(BJA) 
c) P(AJAUB) 
d) P(AJANB) 
e) P(ANB|AUB) 


2) En un club de amigos, 10 practican tenis, 7 practican fútbol, 4 practican ambos deportes y 
los restantes 5 no practican algún deporte. Si se elige una de estas personas al azar, calcule la 
probabilidad que, 

a) Al menos practique un deporte 

b) No practique tenis 

c) Practique tenis y no practique fútbol 

d) Practique tenis dado que no practica fútbol 


3) En una granja se tiene que la probabilidad que un animal tenga la gripe aviar es 0.3. La 
probabilidad que la reacción a una prueba sea negativa para un animal sano es 0.9, y que sea 
positiva para un animal enfermo es 0.8 

a) Calcule la probabilidad que para un animal elegido al azar, el examen sea positivo 

b) Calcule la probabilidad que el animal elegido al azar esté enfermo, dado que el 

examen fue positivo 
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3.11 EVENTOS INDEPENDIENTES 


Sean A y B eventos cualesquiera de un espacio muestral S, se dice que A y B son 
independientes si P(A]B) = P(A) y P(B|A) = P(B), es decir que el evento A no depende del 
evento B y el evento B no depende del evento A 


Lo anterior es equivalente a la siguiente definición 


Definición: Eventos independientes 


A y B son eventos independientes si P(ANB) = P(A) P(B) 


Demostración: 
De la definición de probabilidad condicional, 
P(A|B) = P(ANB)/P(B), P(B)x0 


Si A y B son independientes: P(AJB) = P(A). 


Sustituir en la fórmula de probabilidad condicional: 
P(A) = P(A”B)/P(B) 


De donde se despeja P(AnNB) 


Ejemplo. Calcule la probabilidad que el último dígito de un número de cinco dígitos elegido al 
azar, sea 7 y el penúltimo dígito del mismo número sea 5 


Sean los eventos 
A: el último digito es 7 
B: el penúltimo dígito es 5 
Cada evento no está relacionado con el otro: son independientes, por lo tanto, 
P(ANB) = P(A) P(B) = 0.1 x 0.1 = 0.01 


Ejemplo. En una caja hay 10 baterías de las cuales 4 están en buen estado. Se repite dos 
veces el siguiente ensayo: extraer una batería al azar, revisar su estado y devolverla a la 
caja. Encuentre la probabilidad que en ambos intentos se obtenga una batería en buen estado. 


Sean los eventos 
A: la primera batería está en buen estado 
B: la segunda batería está en buen estado 


Al devolver la batería a la caja, el evento A no afecta al evento B, por lo tanto son 
independientes: P(ANB) = P(A) P(B) = 0.4 x 0.4 = 0.16 


Calcule la probabilidad que en los dos intentos se obtenga al menos una batería en buen 
estado 


Con la conocida fórmula aditiva de probabilidad, 


P(AUB) = P(A) + P(B) - P(ANB) = 0.4 + 0.4 - 0.16 = 0.64 
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Pregunta. Suponer que A, B son eventos no nulos, mutuamente excluyentes, de un espacio 
muestral S. ¿Son A y B independientes? 


Si A, B son eventos no nulos, — P(A)>0, P(B) >0 > P(A) P(B) >0 
Pero siendo A y B excluyentes, AnNB = Ø > P(ANB) = 0 
Por lo tanto, A y B no pueden ser independientes pues P(ANB) + P(A) P(B) 


También, se tiene que si A, B son excluyentes: — P(A|B)=P(AAB)/P(B) = 0 
Pero si A, B son independientes se debe cumplir: P(A|B) = P(A) 
Por lo tanto A, B no pueden ser independientes 


Pregunta. Si A, B son eventos no nulos e independientes, ¿son excluyentes? 


Si A, B son eventos independientes y no nulos: P(ANB) = P(A) P(B) > 0 
Pero P(ANB)>0 > ANBxJ 
Por lo tanto A, B no pueden ser excluyentes 


NOTA: Ambos enunciados son lógicamente equivalentes 
Sean, p:AyB son excluyentes, q: A y B son independientes 


p> lq =q> lb 


La definición de independencia entre eventos puede extenderse a más eventos 


Definición: Eventos independientes para más eventos 


Si A, B, C son eventos mutuamente independientes, entonces 
P(ANBAC) = P(A) P(B) P(C) ¿ 


3.12 REGLA MULTIPLICATIVA DE LA PROBABILIDAD 


Sean A, B eventos no nulos cualquiera de S, entonces 


Definición: Regla multiplicativa de la probabilidad 


P(ANB) = P(A) P(B]A) 


Esta fórmula se la obtiene directamente despejando P(AnB) de la definición de Probabilidad 
Condicional 


Ejemplo. En una caja hay 10 baterías de las cuales 4 están en buen estado. Se extraen al azar 
dos baterías sin devolverlas a la caja. Encuentre la probabilidad que, 

a) Ambas estén en buen estado 

b) Solamente una esté en buen estado 

c) Al menos una esté en buen estado 

d) Ninguna esté en buen estado 


Sean los eventos 


A: La primera batería está en buen estado 
B: La segunda batería está en buen estado 


a) La probabilidad que ambas estén en buen estado es P(ANB), pero los eventos A y 
B no son independientes pues B depende del resultado de A. Entonces con la 
fórmula anterior 


P(ANB) = P(A) P(BJA) = O = 2/15 =0.1333 
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La probabilidad de éxito del evento A es 4/10. Para el evento B es 3/9, dado que A 
es favorable, pues quedan 3 baterías en buen estado del total de 9 baterías 


La probabilidad que una batería esté en buen estado y la otra en mal estado: 
P(ANBS) + P(A°^B) = P(A)P(B]A) + P(AS)P(BJAS) 
= (4/10)(6/9) + (6/10)(4/9) = 12/15 = 0.5333 


Los eventos en los que solamente la primera batería esté en buen estado o que 
solamente la segunda batería esté en buen estado son excluyentes, por lo que sus 
probabilidades se suman. 


La probabilidad que al menos una esté en buen estado. Usando los resultado 
calculados en a) y b): 
P(AUB) = P(ANB)UP(AABSJUOP(AB) = 2/15 + 8/15 = 2/3 =0.6666 


Equivale a decir que ambas estén en buen estado o que solamente una esté en 
buen estado y siendo eventos excluyentes, sus probabilidades se suman 


La probabilidad que ninguna esté en buen estado 
P((AUB)”) = 1 - P(AUB) = 1 - 2/3 = 1/3 = 0.3333 


Es lo contrario de que al menos una esté en buen estado. 
El ejemplo anterior también puede resolverse con las fórmulas de conteo conocidas 

a) A: evento que ambas baterías están en buen estado 
N(A): cantidad de formas de sacar 2 en buen estado de las 4 existentes: 
N(S): cantidad de formas de sacar 2 baterías del total de 10 baterías 

P(A) = N(A) / N(S) = 4C2 Í 10C2 = 2/15 

b) A: Evento en el que una batería está en buen estado y la otra esté en mal estado. 
Este evento incluye las formas de sacar una batería en buen estado de las 4 
existente: ¿C,, y una en mal estado de las 6 existentes: ¿Cy 
P(A) = 4C1 6C1 I 10C2 = 8/15 
A: ambas baterías en buen estado 


B: solamente una batería en buen estado 
A y B son eventos excluyentes, por lo tanto 


P(AUB) = P(A) + P(B) = 2/15 + 8/15 = 10/15 = 2/3 


La regla multiplicativa puede extenderse a más eventos. 
Definición: Regla multiplicativa de la probabilidad para más eventos 


Sean A, B, C eventos cualesquiera de S, entonces 


P(ANBAC) = P(A) P(B]A) P(CIJANB) 
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Ejemplo. En el ejemplo anterior de las 10 baterías con 4 en buen estado, encuentre la 
probabilidad que al extraer tres sin devolverlas, las tres estén en buen estado 


Usando la Regla Multiplicativa, siendo A, B, C eventos que corresponden a sacar la primera, 
segunda y tercera batería en buen estado, 
P(ANBNAC) = (4/10) (3/9) (2/8) = 1/30 = 0.0333 = 3.33% 


Este ejemplo también se puede resolver usando las fórmulas de conteo conocidas 


Sean A: Evento que las tres baterías están en buen estado 
N(A): cantidad de formas de tomar 3 en buen estado de las 4 existentes 
N(S): cantidad de formas te tomar 3 baterías del total de 10 


P(A) = N(A) l N(S) = 4C3 I 103 = 1/30 


Ejemplo. Para ensamblar una máquina se usan dos componentes electrónicos. Suponga que 
la probabilidad que el primer componente cumpla las especificaciones es 0.95, y para el 
segundo es 0.98. Además, los componentes funcionan independientemente. 

Encuentre la función de distribución de probabilidad del número de componentes que cumplen 
las especificaciones, xX = 0, 1, 2 


Sea X: variable aleatoria discreta (número de componentes que cumplen las especificaciones) 
x=0,1,2 


Sean los eventos: 

A: el primer componente cumple las especificaciones 
B: el segundo componente cumple las especificaciones 
A“: el primer componente no cumple las especificaciones 
B°: el segundo componente no cumple las especificaciones 


Entonces 
P(X=0) = P(AS)P(BS) = (1 - 0.05)(1 - 0.98) = 0.001 (Son eventos independientes) 
P(X=1) = P(A - B) + P(B - A) = P(ANBS) + P(BNAS) = 0.95(1-0.98) + 0.98(1-0.95) = 0.068 
P(X=2) = P(A)P(B) = (0.95)(0.98) = 0.931 (Son eventos independientes) 


Por lo tanto, la función de distribución de probabilidad de la variable aleatoria X es 


f(x) = PO=X) 
0.001 
0.068 
0.931 


Estos resultados se fundamentan en la propiedad de que si A, B son eventos independientes, 
entonces también A“, B? son eventos independientes. 
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EJERCICIOS 


1) Dos jugadores de fútbol realizan un disparo cada uno. Se conoce que la probabilidad de 
éxito del primero es 0.7 mientras que la probabilidad de éxito del segundo jugador es 0.6. 
Calcule la probabilidad que 

a) Ambos jugadores tengan éxito. 

b) Ninguno tenga éxito. 

c) Al menos uno tenga éxito 


2) Dos alarmas contra incendio funcionan independientemente. La probabilidad de éxito de 
detección de la primera es 0.95, mientras que para la segunda es 0.9. Calcule la probabilidad 
que: 

a) Al menos una alarma tenga éxito. 

c) Solamente una alarma tenga éxito. 


3) Sean A, B eventos independientes. Demuestre que los eventos A”, B° también son eventos 
independientes. 
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3.13 PROBABILIDAD TOTAL 


Existen situaciones en las cuales varios eventos intervienen en la realización de algún otro 
evento del mismo espacio muestral. Consideremos un caso de interés. 


Sean B,, B3, ... ¡Bx eventos mutuamente excluyentes de S y que constituyen una partición de 
S, es decir, cumplen las siguientes propiedades: 

a) Vi,j (BinBj¡= Ø, i +j) (Los eventos son mutuamente excluyentes) 

b) ByuBu ... UBk = S (La unión de todos estos eventos es S) 
Sea A un evento cualquiera de S. La realización de A depende de los eventos B,, B3, ... ¡Bx 


El siguiente gráfico permite visualizar esta relación entre eventos: 


Para los eventos descritos anteriormente, la siguiente fórmula permite calcular la probabilidad 
del evento A mediante la probabilidad de los eventos B4, B3, ... „Bk 


Definición 


Fórmula de la Probabilidad Total 


P(A) = P(Bs) P(A]B,)+P(B2) P(A]B2)+...+P(Bi) P(A]B,) = > P(B;)P(A |B;) 


i=1 


Demostración 
A=(AnNBJo(ANB2u ... V(ANBk) Unión de eventos excluyentes 


P(A) = P(ANB) + P(ANB)) + ... + P(ANBk) Por el axioma 3 de probabilidad 
P(A) = P(B,) P(A]B,)+P(B2) P(A]B2)+...+P(Bi) P(A]B¡) 


Con la definición de probabilidad condicional 


Ejemplo. Una institución tiene a tres personas para atender a sus clientes: María, Carmen y 
Beatriz. Se dispone de un registro de quejas por la atención recibida: 1%, 3%, 2% 
respectivamente. Cierto día acudieron 50 clientes a la institución, de los cuales 15 fueron 


atendidos por María, 10 por Carmen y 25 por Beatriz. 
Calcule la probabilidad que un cliente elegido al azar de entre los que fueron atendidos ese día 
se queje por la atención recibida. 
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Solución. 


Los datos disponibles son 


Persona 


Clientes 
atendidos 


Probabilidad 
de queja 


María 


15 


1% 


Carmen 


10 


3% 


Beatriz 


25 


2% 


Si se definen los eventos de la siguiente manera 

A: El cliente elegido presenta una queja 

B:: El cliente fue atendido por María 

B2: El cliente fue atendido por Carmen 

B3: El cliente fue atendido por Beatriz 
B,, B2, y B3 son eventos que conforman una partición, y contribuyen a la realización de otro 
evento, A. Por lo tanto es un problema de probabilidad total: 


P(A) = P(B,) P(A|B1) + P(B2) P(A]B,) + P(B3) P(A]B3) 
= (15/50)0.01 + (10/50)0.03 + (25/50)0.02 = 0.019 = 1.9% 


Ejemplo. Una fábrica tiene tres máquinas Mı, M2, M; para la producción de sus artículos. El 
siguiente cuadro describe el porcentaje de producción diaria de cada una y la frecuencia de 
artículos defectuosos que producen cada una. 


Artículos 


Máquina Producción 
defectuosos 


Mı 50% 4% 
M, 30% 3% 
M; 20% 2% 


Determine la probabilidad que un artículo elegido al azar de la producción total de un día, sea 
defectuoso. 


Solución 


Sea A: evento que el artículo elegido sea defectuoso 

El evento A depende de Bı, B2, B que representan los eventos de que un artículo sea 
producido por las máquinas: Mı, M2, Mz respectivamente. Estos eventos forman una partición 
por lo que usamos la fórmula de la probabilidad total 


P(A) = P(B;) P(A[B;) + P(B2) P(A|B2) + P(B3) P(A|B3) 
= (0.5)(0.04) + (0.3)(0.02) + (0.2)(0.03) = 0.032 = 3.2% 


Ejemplo. En una primera caja hay 20 baterías de las cuales 18 están en buen estado. En una 
segunda caja hay 10 baterías de las cuales 9 están en buen estado. Se realiza un experimento 
que consiste en las siguientes dos acciones: 


Primero se toma al azar de la caja 2 una batería y sin examinarla se la coloca en la caja 1. 
Segundo, se toma al azar una batería de la caja 1 y se la examina. 
Encuentre la probabilidad que esta última batería esté en buen estado. 
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Respuesta 
El siguiente gráfico describe el experimento: 


Primera caja Segunda caja 


Sean los eventos 
B: La batería tomada de la caja 2 y colocada en la caja 1 está en buen estado 
B°: La batería tomada de la caja 2 y colocada en la caja 1 no está en buen estado 
A: La batería tomada de la caja 1 está en buen estado 


El evento A depende de los eventos B y B°, los cuales son excluyentes y forman una 
partición. De ellos depende el evento A. Entonces con la fórmula de la Probabilidad 
Total: 


P(A) = P(B) P(A]B) + P(B) P(A]B°) = (9/10)(19/21) + (1/10)(18/21) = 0.9 


3.14 FÓRMULA DE BAYES 


Sean B,, B, ... ¡Bx eventos no nulos mutuamente excluyentes de S y que constituyen una 
partición de S, y sea A un evento no nulo cualquiera de S 


La siguiente fórmula se denomina Fórmula de Bayes y permite calcular la probabilidad 
correspondiente a cada uno de los eventos de los que depende otro evento, dado que este ya 
sucedió. 


Definición: Fórmula de Bayes 
P(B.) P(A |B) P(B) P(AJB) . 


P(BA) = d 
RIN Y P(B,) P(A |B;) 


Demostración. Por la definición de probabilidad condicional: 

P(B,^ A) P(B,) P(A |B; 

peja) -PEA A) _ PB) PIAIB) 
P(A) P(A) 


,1=1,2,...,k 


Ejemplo. En el ejemplo anterior de la fábrica, suponga que el artículo elegido al azar fue 
defectuoso. Determine la probabilidad que haya sido producido por la máquina M:: 


Solución: 
P(B.) P(A |B E ; 
P(B1|A) -P(B,) P(A |B.) a (0.50)(0.04) = 0.625 = 62.5% 
P(A) 0.032 


Ejemplo. Sean A, B eventos de algún S. Se conoce que 
P(B) = 0.4 
P(A|B) = 0.3 
P(A|B") = 0.8 
Encuentre 
a) P(A), b) P(BIA) c) P(BJAS) 
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Respuesta: 

Para facilitar la interpretación de este problema colocamos los datos en un diagrama de árbol y 
con un Diagrama de Venn visualizamos los eventos. 

Los datos los escribimos en color negro. Los valores faltantes los completamos en azul. 


Los eventos B y B° constituyen una partición y determinan la realización del evento A. 


Con los valores indicados en el diagrama y las fórmulas de Probabilidad Total y el Teorema de 
Bayes se obtienen las respuestas: 
a) P(A)= P(B) P(A]B) + P(B*) P(A|B*) = (0.4)(0.3) + ((0.6)(0.8) = 0.6 


b) P(BJA) = P(BNA)I/P(A) = P(B) P(A]B) / P(A) = (0.4) (0.3) / 0.6 = 0.2 


c) P(BJAS) = P(BAAS)IP(A?) = P(B) P(A'|[B) / P(AS) = (0.4) (0.7) / 0.4 = 0.7 


EJERCICIOS 


1) La Comisión de Tránsito del Guayas ha implantado un sistema de control de velocidad 
mediante un radar colocado en cuatro puntos de la ciudad: X1, X2, X3, X4. Cada día, estos 
aparatos están activos en los sitios indicados, 16 horas, 10 horas, 12 horas y 15 horas 
respectivamente en horarios al azar. Una persona maneja a su trabajo diariamente y lo hace 
con exceso de velocidad y la probabilidad de que pase por alguno de estos sitios es 
respectivamente 0.3, 0.1, 0.4 y 0.2 


a) Calcule la probabilidad que en algún día reciba una multa por exceso de velocidad. 
b) Cierto día, la persona recibió una multa por exceso de velocidad. Determine el sitio en que 
hay la mayor probabilidad de haber sido multado. 


2) Para concursar por una beca de estudio en el exterior se han presentado a rendir un examen 
10 estudiantes de la universidad X,, 20 de la universidad X2 y 5 de la universidad X3. De 
experiencias anteriores, se conoce que las probabilidades de éxito en el examen son 
respectivamente: 0.9, 0.6, 0.7 


a) Calcule la probabilidad que un estudiante elegido al azar apruebe el examen 


b) Calcule la probabilidad condicional de que un estudiante elegido al azar y que haya 
aprobado el examen, sea de la universidad Xy. 
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4 VARIABLES ALEATORIAS DISCRETAS 


En el material estudiado anteriormente aprendimos a calcular la probabilidad de eventos de un 
espacio muestral S. En esta unidad estudiaremos reglas para establecer correspondencias de 
los elementos de S con los números reales, para luego asignarles un valor de probabilidad. 


Ejemplo. 
En un experimento se lanzan tres monedas y se observa el resultado (c: cara o s: sello). 
El conjunto de posibles resultados para este experimento, es el siguiente espacio muestral: 


S = ([(c, c, 0),( C, C, S),( C, S, C),( S, C, C),( C, S, S),( S, C, S),( S, S, C),( S, S, S)) 


Suponga que es de interés conocer el número de sellos que se obtienen. 


Los posibles resultados se los puede representar mediante una variable. Si X representa a esta 
variable, entonces se dice que X es una variable aleatoria: 


X: Variable aleatoria (número de sellos que se obtienen) 


Al realizar el experimento, puede resultar cualquier elemento del espacio muestral S. 
Por lo tanto, la variable aleatoria X puede tomar cualquiera de los números: 0, 1, 2, 3. 


Las variables aleatorias establecen correspondencia del espacio muestral S al conjunto de los 
números reales. Esta correspondencia es una función y se la puede definir formalmente. 


Definición: Variable aleatoria 


Variable aleatoria 
Espacio muestral 
Cualquier elemento de S 
Valor que puede tomar X 


; Conjunto de los números reales 
Entonces 


X:S>R Esla correspondencia que establece la variable aleatoria X 
e>xX, domX=S, rgXcR 


Ejemplo: Tabule la correspondencia que establece la variable aleatoria X del ejemplo anterior: 
S = ((c, c, 0),( Cc, C, S),( C, S, C),( S, C, C),( C, S, S),( S, C, S),( S, S, C),( S, S, S)) 


X: variable aleatoria (Número de sellos que se obtienen) 
x=0,1,2,3 


e (elemento de S) | X (valor de X) 
(c, Cc, Cc) 0 
(c, Cc, Ss) 
(c, S, C) 
(s, Cc, c) 
(c, S, S) 
(s, C, Ss) 
(s, Ss, C) 
(s, Ss, S) 

dom X= S, rg X = (0, 1, 2, 3) 


Para un mismo espacio muestral S pueden definirse muchas variables aleatorias. Para el 
ejemplo de las 3 monedas, algunas otras variables aleatorias que se pueden definir sobre S, 
pudieran ser 

Y: Diferencia entre el número de caras y sellos 

Z: El número de caras al cubo, mas el doble del número de sellos, etc. 
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Para cada variable aleatoria el rango es un subconjunto de los reales. Según el tipo de 
correspondencia establecida, las variables aleatorias pueden ser discretas o continuas. 


En el ejemplo de las monedas, X es una variable aleatoria discreta pues su rango es un 
subconjunto de los enteros. Además es finita. 


Ejemplo. En un experimento se lanza repetidamente una moneda. 
Determine el rango y tipo de la variable aleatoria discreta siguiente: 


X: Cantidad de lanzamientos realizados hasta que sale un sello 
S={( s), (c, s), (c, c, S), (C, C, C, S), ...), resultados posibles 
rg X = {1, 2, 3, 4, ...) 


X es una variable aleatoria discreta infinita 


4.1 DISTRIBUCIÓN DE PROBABILIDAD DE VARIABLES 
ALEATORIAS DISCRETAS 


Cada valor de una variable aleatoria discreta puede asociarse con un valor de probabilidad 
Definición: Probabilidad de una variable aleatoria discreta 


Sea X: Variable aleatoria discreta 
Entonces, P(X=x) representa la probabilidad que la variable X tome el valor x 


La correspondencia que define P(X=x) es una función y se denomina distribución de 
probabilidad de la variable aleatoria X. Esta correspondencia puede definirse formalmente: 


Definición: Distribución de probabilidad de una variable aleatoria discreta X 


Sean X: Variable aleatoria discreta 
f(x) = P(X=x) probabilidad que X tome el valor x 
Entonces, la corresponencia 
f: X— R, 
x > f(x) = P(X=x), domf=X, rg fc [0,1] 
Es la distribución de probabilidad de la variable aleatoria X 


f es una función de probabilidad, por lo tanto su rango está en el intervalo [0, 1] 


Definición: Propiedades de la distribución de probabilidad de una variable aleatoria 
discreta 


Sean X: variable aleatoria discreta 
f(x): distribución de probabilidad de X 
Propiedades de f(x) 


1) vx f(x) > 0 Los valores de probabilidad no pueden ser negativos 
2) Zt =1 La suma de todos los valores de probabilidad de f(x) es 1 
X 
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La correspondencia que establece f puede describirse en forma tabular como en el ejemplo 
de las tres monedas. También puede describirse gráficamente, y en algunos casos mediante 
una fórmula matemática como se verá después. 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


Ejemplo. En el experimento de lanzar tres monedas y observar el resultado de cada una: 
cara(c), o sello(s). Encuentre la distribución de probabilidad , en forma tabular, de la variable 
aleatoria X: cantidad de sellos que se obtienen 


Espacio muestral: S = {( c, c, c),( c, c, S),( c, S, C),( s, c, C),( c, s, S),( S, c, S),( S, S, C),( S, S, S)) 
e (elemento de S) | X (valor de X) 
(c, c, c) 0 
(c, Cc, Ss) 
(c, S, C) 
(s, Cc, c) 
(Cc, S, S) 
(s, C, sS) 
(s, S, C) 
(s, Ss, S) 


Los valores de probabilidad para este ejemplo se pueden obtener del conteo de valores de x: 
El valor O ocurre 1 vez entre 8, el valor 1 ocurre 3 veces entre 8, etc 

X P(X=x) 
1/8 
3/8 
3/8 
1/8 


Ejemplo. En un lote de 5 artículos, 3 son defectuosos y 2 aceptables. Se toma una muestra 
aleatoria de 2 artículos. Encuentre la distribución de probabilidad de la variable aleatoria 
correspondiente a la cantidad de artículos defectuosos que se obtienen en la muestra. 


Respuesta 
Sean: a,b,c: artículos defectuosos 
d, e: artículos aceptables 


Cantidad de formas diferentes de obtener la muestra de 2 artículos cualesquiera 
N(S) = 5C2 =10 
S = ((a, b), (a, c), (a, d), (a, e), (b, c), (b, d), (b, e), (c, d), (c, e), (d, e); 


Sea X: Variable aleatoria discreta (cantidad de artículos defectuosos) 
x=0,1,2 
Distribución de probabilidad de X en forma tabular. Se obtiene mediante un conteo directo 
f(x)=P(X=x) 
1/10 
6/10 
3/10 


Ejemplo. Sea X una variable aleatoria discreta cuya distribución de probabilidad está dada por 


2 
f(x) = P(X=x) = fo a Encuentre P(X=2) 
0, otro x 


Respuesta. Por la propiedad 2) $ t(x) =1 
X 


Sua 2 2 2 2_ z _ aio T x? x=0,12,3 
Y kx? = k(0)? + k(1)* + k(2}? + k(3)=1 > k= 1/14 > f(x) = P(X=x) =] 14 

10 0, otro x 
Por lo tanto, P(X=2) = (1/14)(2)? = 217 
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Ejemplo. Grafique un histograma de la distribución de probabilidad para el ejemplo de las tres 
monedas 


4.2 DISTRIBUCIÓN DE PROBABILIDAD ACUMULADA 
DE VARIABLES ALEATORIAS DISCRETAS 


También es importante conocer la probabilidad que la variable aleatoria tome algún valor 
menor o igual que un valor dado. Esta función se denomina Distribución de Probabilidad 
Acumulada y su dominio incluye a todos los números reales 


Definición: Distribución de Probabilidad Acumulada F de la variable aleatoria X 


Sean : Variable aleatoria discreta, 
Distribución de probabilidad de la variable aleatoria discreta X 
Distribución de probabilidad acumulada de la variable aleatoria discreta X 
Entonces 


F(x) = P(X<x) = Y f(t) es la distribución de probabilidad acumulada de X 


t<x 
Correspondencia funcional de la distribución de probabilidad acumulada 


F: R >R, domF=R, rgFc[0,1] 
Ejemplo. Encuentre la distribución de probabilidad acumulada para el ejemplo de las tres 
monedas 


Respuesta: Sea X: variable aleatoria discreta (cantidad de sellos), 
Su distribución de probabilidad es: 


f(x)=P(X=x) 
1/8 
3/8 
3/8 
1/8 


Entonces, 
F(0) = P(X<0) = $ f(t) = f(0) =1/8 
t<0 
F(1) = P(X<1) = Df(t) = 1(0) + f(1)= 1/8 + 3/8 = 1/2 
t<1 
F(2) = P(X<2) = È f(t) = 1(0) + 1(1) + f(2) = 1/8 + 3/8 + 3/8 = 7/8 
t<2 


F(3) = P(X<3) = F f(t) = 1(0) + £(1) + (2) + f(3) = 1 
t<3 
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Distribución de probabilidad acumulada de la vaiable aleatoria X: 
0, x<0 
1/8, 0<x<1 


F(x) = J12, 1<x<2 
718, 2<x<3 
1 x>3 


La distribución acumulada puede graficarse 


Ejemplo. Grafique la distribución acumulada del ejemplo anterior 


1 
0.91 
0.8| 


0.7| 


Definición: propiedades de la distribución acumulada para variables aleatorias discretas 


1) O<F(x)<1 F es función de probabilidad 
2) a< b > F(a) < F(b) F es creciente 
3) P(X>a) = 1 - P(X<a) = 1 - F(a) Complemento 


El dominio de F es el conjunto de los números reales, por lo tanto es válido evaluar F(x) para 
cualquier valor real de x. 


Ejemplo. Calcule algunos valores de F(x) para el ejemplo anterior 
F(2.5) = P(X < 2.5) = 7/8 


F(-3.4)=0 
F(24.7)=1 
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EJERCICIOS 
1) Sea X una variable aleatoria discreta y su función de distribución de probabilidad: 
2x+1 
f(x) = ,x=0,1 2, 3, 4 
== 1, 


a) Verifique que f satisface las propiedades de las distribuciones de probabilidad 
b) Grafique f mediante un histograma 
c) Calcule P(X=3), P(2<X<4) 


2) Para ensamblar una máquina se usan dos componentes mecánicos. Suponga que la 
probabilidad que el primer componente cumpla las especificaciones es 0.95, y para el segundo 
es 0.98. Además, los componentes funcionan independientemente. 

Encuentre la función de distribución de probabilidad del número de componentes que cumplen 
las especificaciones, X = 0, 1, 2 


3) Respecto al ejercicio 1) 


a) Encuentre y grafique la función de distribución acumulada F 
c) Usando F calcule P(X<1.25), P(1.5<X<3), P(X<2.5 v X>3.2) 


MATLAB 


Probabilidad con variables aleatorias discretas 


>> x = [0 1 2 3); Valores de una variable aleatoria X 
>> f = [1/8 3/8 3/8 1/8]; Distribución de probabilidad f(x) 
>> bar(f, 1, 'y"), grid on Histograma de probabilidad, color amarillo 


El gráfico está en una página anterior 


>> F=cumsumff) Probabilidad acumulada F(x) 
F= 
118 1/2 718 1 
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4.3 VALOR ESPERADO DE UNA VARIABLE ALEATORIA 
DISCRETA 


El valor esperado o media es una medida estadística que describe la tendencia central de una 
variable aleatoria. Podemos pensar que representa el valor promedio que tomaría la variable 
aleatoria si el experimento se realizara un gran número de veces en condiciones similares. 


Definición: Valor esperado o media de una variable aleatoria discreta 


Sean X: variable aleatoria discreta 
f(x): distribución de probabilidad de X 


u, o E(X) representan el valor esperado de la variable aleatoria X 


Entonces: 
u =E(X)= Y xf(x) esla media o valor esperado de X 
x 


Es la suma de los valores de X ponderados con su valor de probabilidad 


Ejemplo. Calcule el valor esperado de la variable aleatoria X en el experimento de lanzar tres 
monedas, siendo X el número de sellos que se obtienen 


Respuesta: De un ejemplo anterior, se tiene la distribución de probabilidad de X: 
f(x)=P(X=x) 

1/8 

3/8 

3/8 

1/8 
Entonces, el valor esperado de X es: 


3 
p=E(X)= J xf(x) = 0(1/8) + 1(3/8) + 2(3/8) + 3(1/8) = 1.5 
x=0 
Significa que si se realizaran un gran número de ensayos, en promedio se obtendrían 1.5 sellos. 


En el ejemplo anterior, el valor esperado está en el centro de la distribución de los valores de X. 
Esto se debe a que la distribución de probabilidad de X es simétrica por lo tanto el valor 
esperado es el valor central del dominio de X. 


Ejemplo. En el experimento de obtener muestras del lote de 5 artículos, encuentre el valor 
esperado de la variable aleatoria X: número de artículos defectuosos. 


Respuesta: Se tiene la distribución de probabilidad de X: 
X f(x)=P(X=x) 

0 1/10 

1 6/10 

2 3/10 


Entonces, el valor esperado de X es: 


2 
u=E(X)= J xf(x) = 0(1/10) + 1(6/10) + 2(3/10) = 1.2, (artículos defectuosos) 
x=0 
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En este ejemplo, el valor esperado no está en el centro de la distribución de los valores de X. 
Esto se debe a que la distribución de probabilidad de X no es simétrica. Se puede entender que 
el valor esperado debe estar en la región de X en la que se concentran los valores que tienen 
mayor probabilidad de ocurrir. 


4.3.1 VALOR ESPERADO DE EXPRESIONES CON UNA VARIABLE 
ALEATORIA 


Estas expresiones también son variables aleatorias y su dominio es el mismo que el dominio de 
la variable aleatoria, pero el rango puede ser diferente. 


Definición: Valor esperado de expresiones con una variable aleatoria 


Sea X: Variable aleatoria discreta 

f(x): Distribución de probabilidad de X 

G(X): Alguna expresión con la variable aleatoria X 
Entonces 


Heco = E[G(X)] = $ G(x)f(x) es la media o valor esperado de G(X) 


Ejemplo. Sea X una variable aleatoria discreta con distribución de probabilidad: 
t(x) 
0.1 


0.4 
0.3 
0.2 


Sea G(X) = 2X + 1. Encuentre E[G(X)] 
Respuesta. 


4 
uco 7E[G(X)] = Y G(x)f(x) = (2(1)+1)(0.1) + (2(2)+1)(0.4) + (2(3)+1)(0.3) + (2(4)+1)(0.2) = 6.2 
x=1 


Ejemplo. Un almacén vende diariamente O, 1, 2, 3, o 4 artículos con probabilidad 10%, 40%, 
30%, 15%, y 5% respectivamente. Mantener el local le cuesta diariamente $40 a la empresa. 
Por cada artículo que vende, tiene una ganancia de $50. 

Encuentre el valor esperado de la ganancia diaria. 


Respuesta: 

Sea X: variable aleatoria discreta (número de artículos que vende cada día) 

La distribución de probabilidad de X es: 

f(x)=P(X=x) 
0.1 


0.4 
0.3 
0.15 
0.05 
Sea G(X) = 50X - 40, variable aleatoria que representa la ganancia diaria 
Entonces 


E[G(X)]= y G(x)f(x) = (50(0)-40)(0.1) + (50(1)-40)(0.4) + .... = 42.5 


x=0 
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Significa que cada día la ganancia esperada es $42.5 


Definición: Juego justo 


Se dice que un juego es “justo” si el valor esperado de la ganancia es cero. 


Ejemplo. Un juego consiste en lanzar tres monedas. Si salen 1 o 2 sellos, se pierde $2. 
¿Cuanto se debe ganar en los otros casos para que sea un juego “justo”? 


Respuesta: 

Sea X: número de sellos (variable aleatoria discreta) 
f(x): distribución de probabilidad de X 
G(X): ganancia (variable aleatoria) 

Se tiene la distribución de probabilidad de X: 


f(x)=P(X=x) G(x) 
1/8 k 
318 -2 
318 -2 
1/8 k 


k es la cantidad que se debe ganar cuando salen 0 o 3 sellos. 


3 
Entonces E[G(X)] = $, G(x)f(x) = k(1/8) + (-2)(3/8) + (-2)(3/8) + k(1/8) = O 
x=0 
Pues el valor esperado debe ser O. De donde se obtiene k =6 dólares. 


4.3.2 PROPIEDADES DEL VALOR ESPERADO 


Definición: Propiedades del valor esperado 
Sean X: Variable aleatoria discreta 
f(x): Distribución de probabilidad de X 


a,b e R: números reales cualesquiera 
Entonces E(aX + b) = aE(X) + b 


Demostración 


E(aX + b) = (ax + b)f(x) = Y axf(x) + )bf(x) = ad xf(x)+ bJ f(x) 


Se tiene E(X) = S xt(x) , además Zt =1, con lo que se completa la demostración. 
xX xX 


4.3.3 COROLARIOS 
1) E(aX) = a E(X), 2) E(b)=b 


El segundo corolario muestra que si el resultado de un experimento es una constante, el valor 
esperado debe ser también constante. 
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Ejemplo. Calcule el valor esperado para el ejemplo del almacén usando la nueva fórmula 


Respuesta: 
G(X) = 50X — 40 
E[G(X)] = E(50X — 40) = 50 E(X) — 40 


4 
E(X)= J, xf(x) =0(0.1) + 1(0.4) + 2(0.3) + 3(0.15) + 4(0.05) = 1.65 


x=0 
>  E[G(X)] = 50(1.65) — 40 = 42.5 


4.4 VARIANZA DE UNA VARIABLE ALEATORIA D 


ISCRETA 


La varianza o variancia es una medida estadística que cuantifica el nivel de dispersión de los 


valores de la variable aleatoria alrededor de la media. Es una medida de vari 
Definición: Varianza de una variable aleatoria 


Sea X: variable aleatoria discreta 
f(x): distribución de probabilidad 
u, O E(X): valor esperado de la variable aleatoria X 
Entonces 
o= v(X) = E[(X-4)^ = Y (x -u)}*f(x) es la varianza de la variable 


x 


En la definición de la varianza se suman las diferencias de cada valor x con 


abilidad. 


aleatoria X 


respecto a la media 


ponderadas con los valores de probabilidad. Elevar al cuadrado puede interpretarse que es de 
interés la magnitud de las diferencias. El verdadero motivo pertenece a la teoría estadística. 


Ejemplo. En el experimento de lanzar tres monedas, se definió la variable aleatoria 
X correspondiente al número de sellos. Calcule la varianza de esta variable aleatoria X. 


Respuesta: Se tiene la distribución de probabilidad de X: 


f(x)=P(X=x) 
1/8 
318 
318 
1/8 


3 
También se tiene el valor esperado de X: p=E(X)= J xf(x) = 1.5 
x=0 
Entonces, usando la definición anterior la varianza de X es, 


o°= V(X) = E[(X-u)®] = y 109 = (0-1.5) (1/8) +(1-1.5)(3/8) + 
x=0 


+ (2-1.5)'(3/8)+(3-1.5)(1/8) 


= 0.75 
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4.4.1 FÓRMULA ALTERNA PARA CALCULAR LA VARIANZA 


La siguiente fórmula es equivalente a la anterior. Es importante recordarla 


Definición: Fórmula alterna para calcular la varianza 


0 = V(X) = E[(X-p)] = E(X) - p? 


Demostración. Usando las propiedades del valor esperado: 
VX) = ENX- = EQÓ— 24X + p) = EX) — E(24X) + E(u) = 
= E(X) - 2pE(X) + p’ = E(X?) — 2p? + p’? = EÔ — p? 


Ejemplo. Calcule la varianza en el ejemplo anterior usando la fórmula alterna 


E(X’) -Yet = 011/8) + 1°(3/8) + 2°(3/8) + 3°(1/8) = 3 


x=0 


o°= V(X) = E(X) - u“? = 3 - 1.5? = 0.75 


4.4.2 PROPIEDADES DE LA VARIANZA 


Definición: Propiedades de la varianza 
Sean X: Variable aleatoria discreta 
f(x): Distribución de probabilidad de X 


a,b e R: números reales cualesquiera 
Entonces V(aX + b) = 2V(X) 


Demostración 
Usando la fórmula alterna de varianza y las propiedades del valor esperado: 
V(aX+b) = E[(aX + by] - E?(aX +b) = E(a°X? + 2abX + bô) — [aE(X) + b]? 
=a E) + 2abE(X) + b° — [aE*(%) + 2abE(X) + bf] 
= A EOS) =E%009] = a? V(X) 


4.4.3 COROLARIOS 
1) V(aX) = a° V(X) 2) V(b)=0 


El segundo corolario muestra que si el resultado de un experimento es un valor constante 
entonces la variabilidad es nula. 


NOTA 

La distribución de probabilidad de una variable aleatoria incluye a los valores de probabilidad de 
todos los resultados que puede tomar la variable aleatoria, es decir su espacio muestral; 
mientras que una muestra incluye una parte de este espacio muestral 
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a a 2 A a . PE A 
La media y varianza u, O”, de una variable aleatoria son las medidas estadísticas referidas al 
espacio muestral, mientras que se usan X, S? para referirse a las medidas estadísticas de la 
muestra. 


EJERCICIOS 
1) Sea X una variable aleatoria discreta y f su función de distribución de probabilidad: 
2x+1 
f(x) = , X=0,1 2,3, 4 
== 1, 


a) Calcule la media de X 
b) Sea G(X) = 2X+1. Calcule la media de G(X) 
c) Calcule la varianza de X 


2) Para ensamblar una máquina se usan dos componentes mecánicos. Suponga que la 
probabilidad que el primer componente cumpla las especificaciones es 0.95, y para el segundo 
es 0.98. Además, los componentes funcionan independientemente. 
Usando función de distribución de probabilidad de la variable aleatoria X que representa al 
número de componentes que cumplen las especificaciones, x = O, 1, 2, obtenida en la unidad 
anterior. 

a) Encuentre la media y la varianza de la variable aleatoria X 

b) Suponga que el costo asociado con los componentes instalados que no cumplen las 

especificaciones es G(X)=$5000X?. Encuentre el valor esperado de este costo. 


MATLAB 


Cálculo del valor esperado de una variable aleatoria discreta 
>>x=[1 23 4]; Valores de la variable aleatoria X 


>> f = [0.1 0.4 0.3 0.2]; Distribución de probabilidad de la variable X 
>> mu = sum(x.*f) Media de X 


Valor esperado de una expresión 


>> g = 2*x+1; Una expresión con X: g(X) = 2x + 1 
>> mug=sum(g .*f) Media de g(X) 


Cálculo de la varianza de una variable aleatoria discreta 


>> sigma2 = var(x, f) 
sigma2 = 
0.8400 
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4.5 MOMENTOS DE UNA VARIABLE ALEATORIA DISCRETA 


La media de una variable aleatoria discreta describe su tendencia central y la variancia mide su 
dispersión, pero estas medidas no son suficientes para describir completamente la forma de la 
distribución de probabilidad. 


Los momentos de una variable aleatoria son los valores esperados de algunas funciones de la 
variable aleatoria. Constituyen una colección de medidas descriptivas con las que se puede 


caracterizar de manera única a su distribución de probabilidad. Usualmente estas definiciones 
se las hace usando como referencia el origen, o la media de la variable aleatoria. 


4.5.1 MOMENTOS ALREDEDOR DEL ORIGEN 


Definición 


Sea X: Variable aleatoria discreta 
f(x): Distribución de probabilidad de X 
Entonces, el r-ésimo momento de X alrededor del origen es: 


W: = E(X) = Y x't(x) 


r=1: W= E(X)= S xt(x) =u (Primer momento alrededor del origen. Es la media) 
Xx 

r=2: p2= El?) = Zx’ t(x) (Segundo momento alrededor del origen) 
xX 

etc. 


4.5.2 MOMENTOS ALREDEDOR DE LA MEDIA 
Definición 
Variable aleatoria discreta 


X: 
f(x): Distribución de probabilidad de X 
Entonces, el r-ésimo momento de X alrededor de la media 


Sea 


o r-ésimo momento central, es: 


pr = E[(X-u)"]= Y (x- u)" f(x) 


=1: m = E[(X-u)] = E(X)-u=0 (Primer momento central) 


r=2: m= E[(X-u)^ =0° (Segundo momento central. Es la varianza) 
r=3: w= E[(X-u)°] (Tercer momento central) 
r=4: m= E[(X-u)“] (Cuarto momento central) 


El segundo momento central o varianza, mide la dispersión 
El tercer momento central, mide la asimetría o sesgo 
El cuarto momento central, mide la curtosis o “puntiagudez”. 


Se definen coeficientes para expresar los momentos en forma adimensional para que no 
dependan de la escala de medición y puedan usarse para comparar la distribución entre 
variables aleatorias. Para los tres momentos centrales indicados arriba, son respectivamente: 


4.5.3 COEFICIENTES 


Definiciones 
Coeficiente de Variación: olu 


Coeficiente de Asimetría: nl)? 


Coeficiente de Curtosis lua)? 
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4.5.4 VALORES REFERENCIALES 


Valores referenciales y significado de algunos coeficientes 


Coeficiente de asimetría 


Positivo: La distribución tiene sesgo positivo (se extiende a la derecha) 
Cero: La distribución es simétrica. 
Negativo: La distribución tiene sesgo negativo (se extiende a la izquierda) 


Coeficiente de curtosis 


Mayor a 3: La distribución es “puntiaguda” o “leptocúrtica” 
Igual a 3: La distribución es “regular” 
Menor a 3: La distribución es “plana” o “platicúrtica” 


4.5.5 EQUIVALENCIAS ENTRE MOMENTOS 
Los momentos centrales pueden expresarse mediante los momentos alrededor del origen 
usando la definición de valor esperado: 


po = E[(X-p)^] = E(XÔ) - p? = p2 - p? (Es la definición de varianza) 
a = E[(X-p)?] = ps - Spa + 240 i 
pa = E[Op)] = pa - 4up’3 + 6p’p’2 - 3p 


4.6 FUNCIÓN GENERADORA DE MOMENTOS 


Es una función especial que puede usarse para obtener todos los momentos de una variable 
aleatoria discreta 


Definición 


Sea X: Variable aleatoria discreta 
f(x): Distribución de probabilidad de X 


Entonces la función generadora de momentos de X es: 


M(t) =E(e%)= $, e™ fo 


X 


El fundamento matemático de la función generadora de momentos se basa en la suposición de 
que es factible el desarrollo de e” en serie de potencias: 


eX=1+1tx+ 0/21 + 6/31 +... 


Con la definición de valor esperado se obtiene: 
M(t) =E(e%) = E(1) + E(tX) + E(tX?12!) + E(X?I3!) + ... 
= 1 + t E(X) + 121 E(XÔ) + 8/3! EQG) + ... 
= 1 + (t) W + (4/21) 02 + (0/31) + ... 


4.6.1 OBTENCIÓN DE MOMENTOS 
El desarrollo anterior justifica el uso de la siguiente fórmula como un dispositivo matemático 
para obtener cualquier momento alrededor del origen, de una variable aleatoria discreta: 


Definición 
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1) Primer momento alrededor del origen: 
d d d 
a MO E[e”]li=o = Elo e*lli=o = E[Xe™]- = E(X) = w1 


2) Segundo momento alrededor del origen: 
2 


flo = L Ele] = ELE eleo = ED eho = EQÔ = p 
de == q t=0 de t=0 t=0 H2 


Ejemplo. 
Suponga una variable aleatoria discreta X con la siguiente distribución de probabilidad: 


a) Encuentre el coeficiente de variación 


u= p4 = E(X) = Fito = 1(0.2) + 2(0.3) + 3(0.4) + 4(0.1) = 2.4 


x=1 


4 

2 = E(X’) = Y xét(x) = 1°(0.2) + 2%(0.3) + 3%(0.4) + 4%(0.1) = 6.6 
x=1 

pa = 0% = E[(X-p)] =EQÓ) - p? = p’2 — (W1)? = 6.6 - (2.4) = 0.84 

v = olu = /0.84 [2.4 = 0.3819 


Encuentre el coeficiente de asimetría 

pa = E(X) = Soto) = 1%0.2) + 2°(0.3) + 3°(0.4) + 4%(0.1) = 19.8 
u = ELX- Es ps - 32 + 2p° = 19.8 - 3(2.4)(6.6) + 2(2.4)* = -0.072 
Coeficiente de asimetría: pala)? = -0.0721(0.84)*? = -0.0935 


Siendo este valor negativo, se concluye que la distribución es asimétrica con 
sesgo hacia la izquierda. 


Encuentre la función generadora de momentos 


4 

M(t) = E(e”) = DN e*t(x) = Y e*t(x)= 0.2e' + 0.3e* + 0.4e* + 0.10% 
xX x=1 

Encuentre la media de la variable aleatoria usando la función generadora 

de momentos 


LS 


P M(t)li=o -2 (0.2e* + 0.3e* + 0.4e* + 0.1e*)l:=0 


= [0.2(e*) + 0.3(2e*) + 0.4(3e*) + 0.1(4e*)]l:=0 


= 0.2(1) + 0.3(2) + 0.4(3) + 0.1(4) = 2.4 


Con la función generadora de momentos se pueden obtener todos los momentos de la variable 
aleatoria. Los momentos son las medidas descriptivas de la variable aleatoria, con los cuales 
se puede caracterizar su función de probabilidad. 


Si la función generadora de momentos existe, entonces esta es única. Por lo tanto permite 
describir completamente a la distribución de probabilidad de una variable aleatoria. Una 
consecuencia de este argumento es la siguiente propiedad 
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4.6.2 PROPIEDAD DE UNICIDAD 


Definición: Unicidad de funciones de distribución de probabilidad 


X, Y Variables aleatorias discretas 
f(x), f(y) Distribuciones de probabilidad 
Mx(t), My(t) Funciones generadoras de momentos 


Si Mx(t) = M,(t) para el mismo dominio de t, entonces las variables aleatorias X, Y 
tienen idéntica distribución de probabilidad, es decir f(x) = f(y) 


4.7 TEOREMA DE CHEBYSHEV 


Este teorema establece un valor mínimo para la probabilidad de una variable aleatoria en un 
intervalo alrededor de la media, independientemente de su función de probabilidad. El valor 
que se obtiene es únicamente una referencia. 


Definición: Teorema de Chebyshev 


Sea X una variable aleatoria discreta con media u y varianza o°, entonces, la probabilidad que 
X tome un valor dentro de K desviaciones estándar © de su media p, es al menos 1 — 1/k?: 


P(u - ko < x < u - ko) 2 1 - Lik? , keR*, k21 


Demostración 
Esta demostración usa una variable aleatoria discreta, pero también se puede demostrar para 
una variable aleatoria continua. 


Separamos el dominio de la variable aleatoria X en tres regiones Ra, Ra, Ra: 


R1 R2 R3 
+ + X 


uko u putko 
Con la definición de varianza: 


o° = E[(X-19] = Y (x - p)? f(x) 
=$ (x-7 f(x) + Y A w*t09 + Y (x-7 fx) 


o> Y (x — p}? f(x) + S (x — u}? f(X), se suprime un término positivo 
R1 R3 


En R1: X< -ko > x-y < -ko > -(x-p) > ko > (xp)? > k20? 


En R3: x>utko > Xx- > ko > (xp) > k?0? 


Al sustituir en las sumatorias, se mantiene la desigualdad: 


o° > Y ko’ f(x) + $ ko? f(x), 
R1 R3 
De donde se obtiene simplificando, 


uk > Y 00) + Xfx), 


Las sumas son valores de probabilidad 


1/k? > P(X < -ko v X> u+ko), 


83 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


Tomando el complemento de probabilidad: 


1 - 1/k? < P(u-ko < X < u+ko) 


Esto completa la demostración 


Ejemplo. 

La producción diaria de una fábrica es una variable aleatoria discreta con media 120 artículos, 
y desviación estándar de 10 artículos. Calcule la probabilidad que en cualquier día la 
producción esté entre 95 y 145 artículos. 


Respuesta 


t 


t 
95 120 145 
u—ko u u+ko 


Por lo tanto, ko = 25 > k(10) = 25 > k= 2.5 


P(95 < X < 145) > 1 — 1/2.5? > P(95 < X < 145) > 0.84 


EJERCICIOS 
1) Suponga una variable aleatoria discreta X con la siguiente distribución de probabilidad: 
X f(x) 
1 0.10 
2 0.20 
3 0.50 
4 0.15 
5 0.05 


a) Encuentre el coeficiente de variación 

b) Encuentre el coeficiente de asimetría e interprete el resultado 

c) Encuentre el coeficiente de curtosis e interprete el resultado 

d) Encuentre la función generadora de momentos 

e) Encuentre la media de la variable aleatoria usando la función generadora 
de momentos 


2) Encuentre el menor valor de k en el teorema de Chebyshev para el cual la probabilidad de 
que una variable aleatoria tome un valor entre u- ko y u+ ko sea 

a) cuando menos 0.95 

b) cuando menos 0.99 
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MATLAB 


>> x=[1234]; 
>> f = [0.2 0.3 0.4 0.1]; 
>> mu=sum(x.*f) 
mu= 
2.4000 
>> mu2=sum((x-mu).12.*f) 
mu2 = 
0.8400 
>> mu3=sum((x-mu)./3.*f) 
mu3 = 
-0.0720 
>> mu4=sum((x-mu).14.*f) 
mu4 = 
1.4832 
>> syms t 
>> fgm=sum(exp(x*t).*f) 
fgm = 


ICM ESPOL 


Valores de la variable aleatoria X 
Distribución de probabilidad de la variable X 
Media 


Varianza 


Asimetría 


Curtosis 


Función generadora de momentos 


1/5*exp(t)+3/10*exp(2*t)+2/5*exp(3*t)+1/10*exp(4*t) 


>> t=0; 
>> mu=eval(diff(fgm)) 


Media usando la función generadora de momentos 
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5 DISTRIBUCIONES DE PROBABILIDAD DISCRETAS 


En este capítulo se estudian los modelos matemáticos para calcular la probabilidad en algunos 
problemas típicos en los que intervienen variables aleatorias discretas. 


El objetivo es obtener una fórmula matemática f(x) para determinar los valores de probabilidad 
de la variable aleatoria X. 


5.1 DISTRIBUCIÓN DISCRETA UNIFORME 


Una variable aleatoria tiene distribución discreta uniforme si su espacio muestral tiene n 
resultados, y cada uno con igual probabilidad. 


Definición: Distribución discreta uniforme 


Sean X: Variable aleatoria discreta 
X = X1, X2, X3, ».., Xn lOS valores que puede tomar, con igual probabilidad 
Entonces la distribución de probabilidad de X es: 
1 


too9=)n" A Xn 


0, otro x 


Ejemplo. 

Un experimento consiste en lanzar un dado y observar el resultado. 

Si X es la variable aleatoria correspondiente a los resultados posibles, entonces su 
distribución de probabilidad tiene distribución discreta uniforme: 


1/6, x=1,2,...,6 
0, para otro x 


P(X -x)= t00 =] 


5.1.1 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN DISCRETA UNIFORME 


Se obtienen directamente de las definiciones correspondientes 
Definición: 
Sea X: variable aleatoria con distribución discreta uniforme 


Media: u = E[X] = È xf(x) = Nx fx) = Ss 
x i=1 i=1 


Varianza: Elo ES -a 
x i=1 


Ejemplo. Un almacén vende diariamente O, 1, 2, 3, o 4 artículos con igual probabilidad. 
Calcule la probabilidad que en algún día venda al menos 2 artículos 


Respuesta 

Sean X: cantidad de artículos que vende cada día (variable aleatoria discreta) 
x=0,1,2,3,4 
X tiene distribución uniforme con p = 1/5 
P(X = x ) = f(x) = 0.2, x = 0, 1, 2, 3,4 


P(X22) = f(2) + f(3) + f(4) = 3(0.2) = 0.6 
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5.2 DISTRIBUCIÓN DE BERNOULLI 


Es un experimento estadístico en el que pueden haber únicamente dos resultados posibles. Es 
costumbre designarlos como “éxito” y “fracaso” aunque pueden tener otra representación y 
estar asociados a algún otro significado de interés. 


Si la probabilidad de obtener “éxito” en cada ensayo es un valor que lo representamos con p, 
entonces, la probabilidad de obtener “fracaso” será el complemento q = 1 - p. 


Definición: Distribución de Bernoulli 


Sean X: Variable aleatoria cuyos valores pueden ser 1: “éxito”, 0: “fracaso” 
p: Valor de probabilidad de que el resultado del ensayo sea “éxito” 


Entonces, la distribución de probabilidad de X es 


e. x51 
—l1-p, x=0 


El experimento puede repetirse y en cada ensayo el valor de probabilidad p debe mantenerse 
constante. Se supondrá también que los ensayos son independientes, es decir el resultado 
de un ensayo no afecta a los resultados de los otros ensayos 


Suponer que se obtienen los siguientes resultados: 110010..., en donde 1 es “exito”, 0 es 


“fracaso” 
Sean p probabilidad que el resultado sea éxito 
q=1-p probabilidad que el resultado sea fracaso 


Entonces la probabilidad de obtener esta secuencia de resultados es: 
P(X=1,X=1,X=0,X=0,X=1,X=0, ...) = f(1) f(1) f(0 f(0) f(1) f(0) ... = pp(1-p)(1-p)pa... 


Ejemplo. Suponer que la probabilidad de éxito de un experimento es 0.2 y se realizan cinco 
ensayos. Calcule la probabilidad que el primero y el último ensayo sean éxitos, y los tres 
restantes sean fracasos. Suponer que los ensayos son independientes. 


Sean 1: el ensayo es éxito 
O: el ensayo es fracaso 
Entonces 
P(=1,X=0,X=0,X=0,X=1) = f(1)f(0)f(0)f(0)f(1) = (0.2)(0.8)(0.8)(0.8)(0.2) = 0.0205 = 2.05% 


5.3 DISTRIBUCIÓN BINOMIAL 


Esta es una distribución importante y de uso frecuente. Corresponde a experimentos con 
características similares a un experimento de Bernoulli, pero ahora es de interés la variable 
aleatoria relacionada con la cantidad de “éxitos” que se obtienen en el experimento. 


Características de un experimento binomial 
a) La cantidad de ensayos que se realizan es finita. Sea esta cantidad n 
b) Cada ensayo tiene únicamente dos resultados posibles: “éxito” o “fracaso” 
c) Todos los ensayos realizados son independientes 
d) La probabilidad de “éxito” en cada ensayo permanece constante. Sea este valor p. 


Algunos ejemplos de problemas con estas características 
1) Analizar la probabilidad respecto a la cantidad de artículos que son defectuosos en una 
muestra tomada al azar de la producción de una fábrica, suponiendo conocida la 
probabilidad de que un artículo sea defectuoso 
2) Analizar la probabilidad de la cantidad de personas que están a favor de un candidato, 
en un grupo de personas elegidas al azar de una población grande. Suponiendo 
conocida la probabilidad de que una persona esté a favor del candidato. 
Definición: Distribución binomial 
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Sean X: Variable aleatoria discreta cuyo valor representa la cantidad de ensayos 
considerados “éxitos” en una serie de n ensayos realizados. 


Xx=0,1,2,...n valores que puede tomar X 
p: valor de probabilidad de que cada resultado sea “éxito” 


Entonces, la distribución de probabilidad de X es 


t(x) = Mra- x=0,1 2, ..., n 


Demostración 
En los N ensayos se han producido X éxitos y N - X fracasos, por lo tanto siendo ensayos 
independientes la probabilidad de obtener estos resultados es p* (1-p)"* 


. n F ca 
Pero, en los N ensayos realizados hay ) formas diferentes de obtener los X éxitos y los 
x 


n - X fracasos. Este número es entonces un factor para el valor de probabilidad anterior. 


; n 7 POE . 
El símbolo | ) O nCx representan el número de combinaciones o arreglos diferentes que se 
x 
obtienen con N elementos, tomando un grupo de X elementos. 


Ejemplo. Se realizan 8 lanzamientos de un dado. Calcule la probabilidad de obtener 4 veces 
el número 6. 


Respuesta. Este experimento tiene las características de un experimento binomial con: 
n=8: Cantidad de ensayos (independientes) 

p = 1/6 Probabilidad que cada ensayo sea “éxito” (sale el 6) 

X: Variable aleatoria discreta (cantidad de veces que sale el 6) 

x=0,1,2,..,8 Valores que puede tomar X 


Por lo tanto, el modelo con los datos para este problema es: 
8 
P(X=x) = f(x) = [i Jpra-p= | ) (1/6) (516)?™ , x = 0, 1, 2, ..., 8 
x x 
De donde se obtiene 


P(X=4) = f(4) = A (1/6)* (5/6)** = (70) (1/6)* (516) = 0.026 = 2.6% 


Ejemplo Una fábrica tiene una norma de control de calidad consistente en elegir al azar 
diariamente 20 artículos producidos y determinar el número de unidades defectuosas. Si hay 
dos o más artículos defectuosos la fabricación se detiene para inspección de los equipos. Se 
conoce por experiencia que la probabilidad de que un artículo producido sea defectuoso es 5%. 
Encuentre la probabilidad de que en cualquier día la producción se detenga al aplicar este 
norma de control de calidad. 


Respuesta 
Esta situación corresponde a un experimento binomial 
n=20 Cantidad de ensayos (independientes) 
p = 0.05 Probabilidad de éxito (constante) 
X: Variable aleatoria discreta (cantidad de artículos defectuosos) 
x = 0, 1, ..., 20 Valores que puede tomar X 


P(X=x) = f(x) = fpa- p)* = (e J05 (0.957 , X= 0,1,2, ...,20 
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Entonces 
P(X22) = 1 - P(X<1) (conviene usar esta propiedad) 
= 1 - (P(X=0) + P(X=1)) = 1 - (f(0) + f(1)) 


20 
f(0) = A Joosto.9sy>- 0.3585 


20 
f(1) = i Joost095)”- 0.3774 


P(X22) = 1 - 0.3585 - 0.3774 = 0.2641 = 26.41% 


5.3.1 PARÁMETROS Y VARIABLE 
Los parámetros de un modelo de distribución de probabilidad se refieren a los valores que 
pertenecen a un problema particular. Para la distribución binomial los parámetros son N y p. 


Una vez que está definido el problema, se puede calcular la probabilidad correspondiente a 
cualquiera de los valores que puede tomar la variable aleatoria X. 


Se puede usar la siguiente notación para distinguir entre variable y parámetros: 


f(x; n, p) = Ma- x=0,12,..., n 


En el ejemplo anterior, el modelo de distribución de probabilidad se puede escribir: 


20 
f(x; 20, 0.05) = | : Jo.05* (0.9570 , x=0,1,...,20 
5.3.2 DISTRIBUCIÓN DE PROBABILIDAD ACUMULADA 
Definición 
Sea X: Variable aleatoria discreta con distribución binomial con parámetros n, p 


Entonces, la distribución de probabilidad acumulada F de X es 


F(x) = P(X<x)= > 6 p'(1-p)*,x >0 


t 


t<x 
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5.3.3 GRAFICO DE LA DISTRIBUCIÓN BINOMIAL 


La distribución binomial tiene su gráfico con forma simétrica cuando p=0.5 


Ejemplo. Grafique la distribución binomial con n=10, p=0.5 


10 10-x 10 10 
f(x) = $ Jesos) = í $ Jos ,x=0,1....,10 


f(0) = 0.0010 
f(1) = 0.0098 
f(2) = 0.0439 


f(8) = 0.0439 


f(9) = 0.0098 
f(10) = 0.0010 


Fig. Distribución binomial con p=0.5 


Si p>0.5, la forma de la distribución binomial tiene sesgo negativo. 
Si p<0.5, la forma de la distribución binomial tiene sesgo positivo. 


Ejemplo 
Grafique la distribución binomial con n=10, p=0.65 


10 _ 
f(x) = | E J.es" 0.35" x x=0,1...,10 


f(0) = 0.0000 
f(1) = 0.0005 


f(9) = 0.0725 
f(10) = 0.0135 


o 1 2 3 4 5 6 La 8 


Fig. Distribución binomial con p>0.5 
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5.3.4 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN BINOMIAL 
Definición: 


Sea X: variable aleatoria discreta con distribución binomial con parámetros N, p 
Entonces 


u = E(X) = np Media de X 
o° = V(X) = np(1-p) Varianza de X 
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Demostración 
Esta demostración usa la definición de función generadora de momentos para variables 
aleatorias discretas 


Distribución de probabilidad de la distribución binomial: 
f(x) = AS ,X=0,1,..., N, siendo q=1-p 
x 


z : . . iz . . . . . . n 
Los términos de la distribución binomial coinciden con el desarrollo del binomio: (q + p) 


n n n n(n 
(a + p)” = foje" (ijan pa? = e 


x=0 
La función generadora de momentos para la distribución binomial: 


m(t) = E(e™) = $ e”t¢) = Pelea = Sierra” 


x=0 
Luego de la simplificación algebraica se puede observar que la última expresión tiene la misma 
z . . . t . 
forma que la fórmula del binomio sustituyendo p por e p. Entonces se tiene 


Definición: Función generadora de momentos de la distribución binomial 


m(t) = (q + e'p)” 


Con la definición correspondiente se pueden obtener los momentos alrededor del origen: 
od d y y 
u= y'i = eM h-o (el. +)” |,.,=n(e'p + q)”*e'p h= nlp +a) p, 


Pero p + q= 1, entonces: u= Np. Esto completa la demostración. 


La demostración de la varianza sigue un camino similar. Primero debe encontrar w’2 con la 
definición: 
2 


u= Ml: y después use la definición: o° = V(X) = EQÉ) - p? = w2- p? 


Ejemplo. 
Encuentre la media y la varianza para el ejemplo del control de calidad en la fábrica. 


Respuesta: 


u = np = 10 (0.1) = 1 

o° = npq = 10(0.1)(0.9) = 0.9 

u representa la cantidad promedio de artículos defectuosos que se obtienen cada día 
o° es una medida de la variabilidad o dispersión de los valores de X 
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EJERCICIOS 


1) La variable aleatoria X tiene distribución discreta uniforme para x=1, 2,3,...,50 
a) Determine la media y varianza de X 

b) Calcule P(5<X<10) 

c) Calcule la media y varianza de la variable aleatoria Y=5X 


2) La variable aleatoria X tiene distribución binomial con n=8, p=0,4. 
a) Defina la función de distribución de probabilidad de X 

b) Grafique la función de distribución de probabilidad 

c) Grafique la función de distribución de probabilidad acumulada 

d) Cual(es) el(los) valor(es) mas factible(s)s que ocurra(n) 

e) Cuales son los valores menos factibles de X 

f) Calcule P(X=5) 

g) Calcule P(X<2) 


3) Un ingeniero que labora en el departamento de control de calidad de una empresa eléctrica, 
inspecciona una muestra al azar de tres motores de la producción. Se sabe que 15% de los 
motores salen defectuosos. Calcule la probabilidad que en la muestra 

a) ninguno sea defectuoso, 

b) uno sea defectuosos, 

c) al menos dos sean defectuosos? 

d) Obtenga la media y la varianza de la variable aleatoria del problema 


4) La probabilidad de que disco compacto dure al menos un año sin que falle es de 0.95. 
Calcule la probabilidad de que en 15 de estos aparatos elegidos al azar, 

a) 12 duren menos de un año, 

b) alo más 5 duren menos de un año, 

c) al menos 2 duren menos de un año. 

d) Obtenga la media y la varianza de la variable aleatoria del problema 


5) Un examen de opciones múltiples tiene 20 preguntas y cada pregunta tiene cuatro posibles 
respuestas entre las cuales se debe elegir la correcta. Un estudiante decide usar una moneda 
para contestar el examen de la siguiente manera: 

Para cada pregunta lanza dos veces la moneda. 

Si el resultado es (cara, cara) marca la primera opción 

Si el resultado es (cara, sello) marca la segunda opción 

Si el resultado es (sello cara) marca la tercera opción 

Si el resultado es (sello, sello) marca la cuarta opción 

Para aprobar el examen se necesita marcar al menos 60% de las respuestas correctas. 
Calcule la probabilidad que este estudiante (?) apruebe el examen 
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MATLAB 


Probabilidad con la distribución binomial 


>> f = binopdf(0, 20, 0.05) Probabilidad con la distribución binomial: x=0, n=20, p=0.05 
f= 
0.3585 
>> f = binopdf(1, 20, 0.05) Probabilidad con la distribución binomial: x=1, n=20, p=0.05 
t= 
0.3774 
>> f = binocdf(3, 10, 0.2) Probabilidad con la distribución binomial acumulada 
f= P(X<3), n = 10, p = 0.2 
0.8791 


>> x = 0:10; Valores para evaluar la distribución binomial, x=0, 1, 2, ..., 10 
>> f = binopdf(x, 10, 0.65) Distribución binomial, x=0, 1, 2, ..., 10; n=10, p=0.65 
= 
0.0000 0.0005 0.0043 0.0212 0.0689 0.1536 0.2377 0.2522 0.1757 0.0725 0.0135 


>> bar(f, 1, 'b'), grid on Gráfico de la distribución de probabilidad en color azul 


0.35 


8 10 


>> f = binocdf(x, 10, 0.65); Distribución binomial acumulada, x=0, 1,2,..., 10 
f= n=10, p=0.65 
0.0000 0.0005 0.0048 0.0260 0.0949 0.2485 0.4862 0.7384 0.9140 0.9865 1.0000 


>> plot(x, f, 'ob") Gráfico de los puntos de la distribución acumulada, en azul 
>> hold on 
>> plot(x,f,'k”), grid on Gráfico superpuesto de la distribución acumulada, en negro 


1 


0.9 


0.8} 


0.7} 


0.6} 


0.5} 


0.4 | 
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5.4 DISTRIBUCIÓN BINOMIAL NEGATIVA 


Los experimentos estadísticos con este modelo de probabilidad tienen características similares 
a los experimentos binomiales: los ensayos son independientes, cada ensayo tiene únicamente 
dos resultados posibles, y la probabilidad que cada ensayo tenga un resultado favorable es 
constante. 


La diferencia es que en este nuevo modelo la variable de interés se refiere a la cantidad de 
ensayos que se realizan hasta obtener una cantidad requerida de éxitos: k 


Definición: Distribución binomial negativa 


Sea X: Variable aleatoria discreta con distribución binomial negativa 
(cantidad de ensayos realizados hasta obtener k “éxitos”) 
p: Probabilidad de “éxito”. Es un valor constante en cada ensayo 
X = k, k+1, k+2, ... (valores que puede tomar la variable X) 


Entonces la distribución de probabilidad de X es: 


P(X=x) = f(x) = f - A p“(1-p)** , x = k, k+1, k+2, . .. 
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Demostración 
Cada “éxito” ocurre con probabilidad p y cada “fracaso” con probabilidad 1-p. 


En algún ensayo x se tendrán finalmente k éxitos, por lo tanto siendo ensayos independientes 
la probabilidad de obtener los k ”éxitos” y los x-k “fracasos” es el producto: p“ (1-p)*“ 


Pero, antes de obtener el k-ésimo “éxito” se realizaron x-1 ensayos en los que se obtuvieron 


los previos k -1 “éxitos”. Esto puede ocurrir en formas diferentes, por lo que este 


número es un factor para la fórmula. Esto se completa la demostración 


Está claro que la cantidad de ensayos que deben realizarse es al menos k. 


Ejemplo 

Suponiendo que la probabilidad de que una persona contraiga cierta enfermedad a la que está 
expuesta es 30%, calcule la probabilidad que la décima persona expuesta a la enfermedad sea 
la cuarta en contraerla. 


Respuesta 

Cada persona expuesta a la enfermedad constituye un ensayo. Estos ensayos son 
independientes y la probabilidad de “éxito” es constante: 0.3. (Note que “éxito” no siempre tiene 
una connotación favorable) 


Por la pregunta concluimos que la variable de interés X tiene distribución binomial negativa con 
k=4, p=0.3. 


Sean X: Cantidad de ensayos realizados hasta obtener k “éxitos” (variable aleatoria discreta) 
x=4,5,6,... 
Agaa o x4 
P(X=x) = f(x) = PES 0.3 (1- 0.3)” , x=4, 5, 6, ... 


Por lo tanto 


P(X=10) = f(10) = p 


1 A 
Jos" 0.71%* = 0.08 
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5.4.1 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN BINOMIAL NEGATIVA 


Definición: 


Media: u= E[X] = ds Varianza: o? = V[X] = ¿GD 


5.5 DISTRIBUCIÓN GEOMÉTRICA 


Es un caso especial de la distribución binomial negativa, cuando k=1. Es decir interesa conocer 
la probabilidad respecto a la cantidad de ensayos que se realizan hasta obtener el primer 
“éxito” 


Definición: Distribución geométrica 


Sean X: Variable aleatoria discreta con distribución geométrica 
(cantidad de ensayos realizados hasta obtener el primer 'éxito”) 


x= 1, 2, 3, ... (valores factibles para la variable X) 
p: probabilidad de 'éxito' (constante) en cada ensayo 


Entonces la distribución de probabilidad de X es: 


P(X=x) = f(x) = p(1-p)*, x=1, 2, 3, ... 


Demostración 
Se obtiene directamente haciendo k=1 en el modelo de la distribución binomial negativa. 


5.5.1 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN GEOMÉTRICA 


Definición: 


Media: u = E[X] = Varianza: o° = V[X] = 567 1) 


Ejemplo. 
Calcule la probabilidad que en el quinto lanzamiento de tres monedas se obtengan tres sellos 
por primera vez. 


Respuesta: 

En el experimento de lanzar tres monedas hay 8 resultados posibles. 

En cada ensayo la probabilidad que salgan tres sellos es constante e igual a 1/8 y la 
probabilidad que no salgan tres sellos es 7/8. 


Estos ensayos son independientes, y por la pregunta concluimos que la variable de interés X 
tiene distribución geométrica con p=1/8, 


Sea X: Cantidad de ensayos hasta obtener el primer “éxito” (variable aleatoria discreta) 
x=1,2,3,... 
P(X=x) = f(x) = (118)(718)*, x=1, 2, 3, ... 
Por lo tanto 
P(X=5) = f(5) = (1/8)(718)7* = 0.0733 
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5.6 DISTRIBUCIÓN HIPERGEOMÉTRICA 


Esta distribución se refiere a los experimentos estadísticos que consisten en tomar una 
muestra sin reemplazo, de un conjunto finito el cual contiene algunos elementos considerados 
“éxitos” y los restantes son considerados “fracasos”. 


Tomar una muestra sin reemplazo significa que los elementos son tomados uno a uno, sin 
devolverlos. Podemos concluir entonces que los ensayos ya no pueden ser considerados 
independientes porque la probabilidad de “éxito” al tomar cada nuevo elemento es afectada por 
el resultado de los ensayos anteriores debido a que la cantidad de elementos de la población 


está cambiando. 
Definición: Distribución hipergeométrica 


Sean N: Cantidad de elementos del conjunto del que se toma la muestra 
K: Cantidad de elementos existentes que se consideran “éxitos” 
n: Tamaño de la muestra 


X: Variable aleatoria discreta (es la cantidad de resultados considerados “éxitos” 
que se obtienen en la muestra) 


Xx = 0, 1, 2,.., N (son los valores que puede tomar X) 


Entonces, la distribución de probabilidad de X es 


al 
f) -An =0,12,....n 


ù 


Demostración 


A 


Con referencia al gráfico: 


K . PTP . 
) es la cantidad total de formas de tomar x “éxitos” en la muestra de los K existentes 
x 


N-K 
( ) es la cantidad total de formas de tomar n - x “fracasos” de los N - K existentes. 
n-x 


K\/N-K ; P 
( ) ( ) es la cantidad total de formas de tomar x “éxitos” y n-x “fracasos” en la muestra 
xj \n-x 


N A . 

( ) .cantidad total de formas de tomar la muestra de n elementos del conjunto de N elementos 
n 

Finalmente, mediante la asignación clásica de probabilidad a eventos obtenemos la fórmula 


para la distribución hipergeométrica. Esto completa la demostración 
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Observe que x no puede exceder a K. La cantidad de “éxitos” que se obtienen en la muestra no 
puede exceder a la cantidad de “éxitos” disponibles en el conjunto. Igualmente, la cantidad de 
n - x “fracasos” no puede exceder a los N - K disponibles. 


Ejemplo. Una caja contiene 9 baterías de las cuales 4 están en buen estado y las restantes 
defectuosas. Se toma una muestra eligiendo al azar tres baterías. Calcule la probabilidad que 
en la muestra se obtengan, 

a) Ninguna batería en buen estado 

b) Al menos una batería en buen estado 

c) No mas de dos baterías en buen estado 


Respuesta. Este es un experimento de muestreo sin reemplazo, por lo tanto es un 
experimento hipergeométrico con 

N=9 (Total de elementos del conjunto) 

K=4 (Total de elementos considerados 'éxitos”) 

n=3 (Tamaño de la muestra) 

X: Cantidad de baterías en buen estado en la muestra 

(Variable aleatoria discreta) 

Entonces la distribución de probabilidad de X es: 


to) IO] 
6 


P(x=0) = 1(0) == 


x = 0,1,2,3 


P(X21) = 1 - P(X<1) = 1 -f(0) = 1 - 0.119 = 0.881 
P(X<2) = P(X=0) + P(X=1) + P(X=2) = f(0) + f(1) + f(2) 


e aa a 
0)J13-0 1). 3-1 2) 3-2 
= + + = 0.119 + 0.4762 + 0.3571 = 0.9523 


9 


También se puede calcular c) considerando que 
P(X<2) = 1 - P(X>2) = 1 - f(3) 


6.6.1 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN HIPERGEOMÉTRICA 
Definición 


Media: y = E[X] = nŠ, Varianza: 0? = V[X] = x (1- O 


Las demostraciones se las puede encontrar en textos de Estadística Matemática. En el 
desarrollo se usa la definición de valor esperado y las propiedades de las sumatorias. 


Ejemplo. Calcule la media y la varianza para el ejemplo anterior 
Respuesta: 


u = 3(4/9) = 1.333 (es la cantidad promedio de baterías en buen estado 
que se obtienen al tomar muestras) 


2_ 3(4), 4,9-3, _ 
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5.7 APROXIMACIÓN DE LA DISTRIBUCIÓN , 
HIPERGEOMÉTRICA CON LA DISTRIBUCIÓN BINOMIAL 


Si el tamaño de la muestra n es muy pequeño respecto a N, entonces se puede aceptar que la 
probabilidad de “éxito” en cada ensayo no cambia significativamente, es decir podemos 
considerar que los ensayos son “aproximadamente independientes”. 


Por ejemplo, si N=1000 y n=10, y hay 200 elementos considerados “éxitos”, entonces, la 
probabilidad de “éxito” del primer ensayo será 200/1000=0.2, la probabilidad de “éxito” del 
segundo ensayo podrá ser 199/999=0.1992 o 200/999=0.2002, dependiendo si el primer 
resultado fue o no “éxito”. Ambos valores son muy parecidos. 


En esta situación, se puede considerar que el modelo hipergeométrico es ‘aproximadamente 
binomiaľ’ y se puede usar la fórmula de la distribución binomial con p=KIN 


La bibliografía estadística establece que esta aproximación es aceptable si n < 5% de N. 


Sea h: distribución hipergeométrica 
b: distribución binomial 
Si n<5%N, entonces h(x; N, K, n) = b(x; n, KIN) 


EJERCICIOS 


1) La probabilidad que una persona expuesta a cierta enfermedad la contraiga es 0.3. 
Calcule la probabilidad que la quinta persona expuesta a esta enfermedad sea la segunda en 
contraerla. 


2) Suponga que en dos de cada diez intentos, un vendedor realiza una venta. Calcule la 
probabilidad que en el sexto intento realice la primera venta. 


3) Suponga que la probabilidad de tener un hijo varón o mujer son iguales a 0.5. Calcule la 
probabilidad que en una familia 

a) El cuarto hijo sea el primer varón 

b) El tercer hijo sea la segunda mujer 

c) El quinto hijo sea el tercer varón o sea la cuarta mujer 


4) Un caja de 10 alarmas contra robo contiene 4 defectuosas. Si se seleccionan al azar 3 de 
ellas y se envían a un cliente, calcule la probabilidad que el cliente reciba 


a) Ninguna defectuosa; b) No más de una defectuosa; c) Al menos una defectuosa 
5) La probabilidad de que un estudiante para conductor apruebe el examen para obtener su 


licencia de conducir es 0.8, encuentre la probabilidad de que una persona apruebe el examen 
a) En el segundo intento., b) En el tercer intento. 
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MATLAB 


Distribución binomial negativa 


>> f =nbinpdf(6, 4, 0.3) 


>> f=nbincdf(6, 4, 0.3) 
f= 
0.3504 


>> x = 0:40; 
>> f = nbinpdf(x, 4, 0.3) 


Probabilidad con la distrib. binomial negativa: x=6, k=4, p=0.3 
x es el número de “fracasos” hasta obtener k “éxitos” 


Probabilidad con la distrib. binomial negativa acumulada 
P(x<6), k=4, p=0.3, x = 0, 1,2, ..., 6 


x=0, 1, 2, ..., 40 
Distribución binomial negativa: k=4, p=0.3, x=0, 1, 2, ..., 40 


f= 0.0081 0.0227 0.0397 0.0556 0.0681 0.0762 0.0800 0.0800 0.0770 0.0719 0.0654 
0.0583 0.0510 0.0439 0.0374 0.0314 0.0261 0.0215 0.0175 0.0142 0.0114 0.0092 
0.0073 0.0058 0.0045 0.0036 0.0028 0.0022 0.0017 0.0013 0.0010 0.0008 0.0006 
0.0004 0.0003 0.0003 0.0002 0.0001 0.0001 0.0001 0.0001 


>> bar(f, 1, 'b”, grid on 


0.09 


Distribución geométrica 


>> f = geopdf(4, 1/8) 
fe 
0.0733 


>> x = 0:40; 
>> f = geopdf(x, 1/8) 


Gráfico de la distribución binomial negativa, color azul 


Probabilidad con la distribución geométrica: x=4, p=1/8 
x es el número de fracasos hasta obtener el primer “éxito” 


x=0, 1, 2, ..., 40 
Distribución geométrica: p=1/8, x=0, 1, 2, ..., 40 


f= 0.1250 0.1094 0.0957 0.0837 0.0733 0.0641 0.0561 0.0491 0.0430 0.0376 0.0329 
0.0288 0.0252 0.0220 0.0193 0.0169 0.0148 0.0129 0.0113 0.0099 0.0087 0.0076 
0.0066 0.0058 0.0051 0.0044 0.0039 0.0034 0.0030 0.0026 0.0023 0.0020 0.0017 
0.0015 0.0013 0.0012 0.0010 0.0009 0.0008 0.0007 0.0006 
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>> bar(f,1,'b'), grid on Gráfico de la distribución geométrica, en color azul 


0.14 


Distribución hipergeométrica 


>> f = hygepdf(0, 9, 4, 3) Distribución hipergeométrica x=0, N=9, K=4, n=3 
f= Cálculo de P(X = 0) 
0.1190 
>> f = hygecdí(2, 9, 4, 3) Distribución hipergeométrica acumulada 
f= P(X<2), N=9, K=4, n=3, x=0, 1, 2 
0.9524 
>> [mu, var]=hygestat(9, 4, 3) Media y varianza de la distr. hipergeométrica: N=9, K=4, n=3 
mu = 1.3333 
var = 0.5556 
>> x = 0:10; 
>> f = hygepdf(x, 75, 20, 10) 
f = 0.0353 0.1534 0.2791 0.2791 0.1694 0.0651 
0.0159 0.0025 0.0002 0.0000 0.0000 


>> bar(f, 1, 'b'),grid on Gráfico de la distribución hipergeométrica, en color azul 
0.35 T T - - E - A 


0 1 2 3 4 5 6 7 8 9 10 
>> f = hygepdf(6, 1000, 200, 10) Distrib. hipergeométrica x=6, N=1000, K=200, n=10 
f= 
0.0053 
>> f = binopdf(6, 10, 200/1000) Distribución binomial x=6, n=10, p=KIN 
fz 
0.0055 Los resultados son cercanos pues n < 5%N 
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5.8 DISTRIBUCIÓN DE POISSON 


La distribución de Poisson es un modelo que puede usarse para calcular la probabilidad 
correspondiente al número de “éxitos” que ocurren en una región o en intervalo de tiempo 
especificados, si se conoce el número promedio de “éxitos” que ocurren. 


Este modelo requiere que se cumplan las siguientes suposiciones: 

a) El número de “éxitos” que ocurren en la región o intervalo es independiente de lo que 
ocurre en otra región o intervalo 

b) La probabilidad de que un resultado ocurra en una región o intervalo muy pequeño, es 
igual para todos los intervalos o regiones de igual tamaño y es proporcional al tamaño 
de la región o intervalo. 

c) La probabilidad de que más de un resultado ocurra en una región o intervalo muy 
pequeño no es significativa. 


Algunas situaciones que se pueden analizar con este modelo: 


Número de defectos por unidad de área en piezas similares de un material. 

Número de personas que llegan a una estación en un intervalo de tiempo especificado. 
Número de errores de transmisión de datos en un intervalo de tiempo dado. 

Número de llamadas telefónicas que entran a una central por minuto. 

Número de accidentes automovilísticos producidos en una intersección, en una semana. 


Definición: Distribución de Poisson 


Sea X: Variable aleatoria discreta con distribución de Poisson 
(cantidad de “éxitos” en una región o intervalo especificados) 
X=0,1,2,... (valores posibles para la variable X) 
A: Cantidad promedio de “éxitos” en la región o intervalo especificados 
Entonces la distribución de probabilidad de X es: 


Ae? 


xt? 


t(x) = 


x=0, 1, 2, ...., e = 2.71828... 


Ejemplo. 
La cantidad de errores de transmisión de datos en una hora es 5 en promedio. Suponiendo que 
tiene distribución de Poisson, determine la probabilidad que: 

a) En cualquier hora ocurra solamente 1 error. 

b) En cualquier hora ocurran al menos 3 errores 

c) En dos horas cualesquiera ocurran no más de 2 errores. 


Respuesta: 
Sea X: Variable aleatoria discreta (cantidad de errores por hora) 
à =5 (promedio de errores de transmisión en 1 hora) 
la-5 
P(X=1) = 1(1) = e = 0.0337 


P(X23) = 1 — P(X<2) = 1 — (f(0) + f(1) + f(2)) = 1 — 0.1247 = 0.8743 


Sea X: variable aleatoria discreta (cantidad de errores en 2 horas) 
A = 10 (promedio de errores de transmisión en dos horas) 

0-10 1, -10 2-10 
P(x<2) = t(0) + (1) + 1(2) = 29 > q N + 2e = 0.0028 
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5.8.1 MEDIA Y VARIANZA DE LA DISTRIBUCIÓN DE POISSON 


Definición 


Media: u=E[X]=1, Varianza: V[X]=1A 


Demostración 
Primero se obtiene la función generadora de decia de la distribución de Poisson. 


m(t) = E[e**] = de Xet) = Dn Ne” ye N Paz 


Se tiene el desarrollo de la: mae dd 
2 3 


A E A) 
2! 3! 


Haciendo y=€') se obtiene 


Definición: Función generadora de momentos de la distribución de Poisson 


Entonces con la definición conocida: 


mas d d _ e -Anet 
p=p1= eh hs dt? e A =e*e re'A heao À 


Con esto se completa la demostración 


La demostración de la varianza sigue un camino similar. 


5.9 APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL 
MEDIANTE LA DISTRIBUCION DE POISSON 


En la distribución binomial cuando n es grande no es práctico el uso de la fórmula. Para 
entender esto, suponga que n=200, p=0.05 y se quiere calcular la probabilidad que la variable 
aleatoria X tome el valor 5: 


n 200 
P(X=5) = f(5) = | Jerome -( E Joos 0.9520%5 
x 
El cálculo aritmético puede presentar alguna dificultad 


En esta situación se puede calcular la probabilidad mediante un modelo aproximado que se 
obtiene del límite al que tiende la distribución binomial 


Del desarrollo algebraico que lo omitimos, se obtiene el siguiente resultado para la distribución 
binomial: 


2X -np 
f(x; n, p) > EE x=0, 1, 2, ....,, cuando h>w y p>0. 
x! 


Este modelo corresponde a la distribución de Poisson con à = np 


Las referencias bibliográficas indican que esta aproximación es aceptable para la distribución 
binomial si n> 20 y p < 0.05. 


Otro criterio utilizado establece que la aproximación es muy buena si n 2 100 y np <10 
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Ejemplo. 
Calcular con la distribución binomial x=5, n=200, p=0.05. 


200 
P(X=5) = f(5) = 5 Joos 0.95? = 0.036 


Calcular con la distribución de Poisson x=5, A = np = 200*0.05 = 10 
Me? 5-10 
P(x=5) =1(5) 2 L£— = 1%" = 0.038 
x! 5! 


Valor cercano al resultado anterior pues n 2 20 y p < 0.05 


EJERCICIOS 


1) Cierto tipo de tela usada en tapicería tiene, en promedio, dos defectos por metro cuadrado. 
Si se supone una distribución de Poisson, calcule la probabilidad que 

a) Un rollo de 30 m? tenga no más de 5 defectos 

b) Un rollo de 30 m? tenga al menos 6 defectos 

c) Un rollo de 60 m? tenga exactamente 10 defectos 


2) Un cargamento grande de libros contiene 3% de ellos con encuadernación defectuosa. 
Utilice la aproximación de Poisson para determinar la probabilidad que entre 400 libros 
seleccionados al azar del cargamento, 

a) Exactamente 10 libros estén defectuosos 

b) Al menos 10 tengan defectos 


3) Un bar prepara un batido especial que contiene en promedio 4 frutas diferentes, encuentre la 
probabilidad de que el batido contenga más de 4 frutas: 
a) En un determinado día, b)En tres de los siguientes 5 días, 


MATLAB 


Probabilidad con la distribución de Poisson 


>> f=poisspdí(1,5) Probabilidad con la distribución de Poisson, x=1, 1=5 
t= 
0.0337 
>> f=poisscdf(2,5) Probabilidad con la distribución de Poisson acumulada 
P(X<5), 1=5 


x=0,1,2,...,15 
>> f=poisspdf(x,5) Probabilidad con la distribución de Poisson, 1=5, x=0, 1, 2, ...13 
f= 0.0067 0.0337 0.0842 0.1404 0.1755 0.1755 0.1462 0.1044 
0.0653 0.0363 0.0181 0.0082 0.0034 0.0013 0.0005 0.0002 


>> bar(f,1,'b') Gráfico de la distribución de Poisson 1=5, x=0, 1, 2, ...15 


0,18 
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6 VARIABLES ALEATORIAS CONTINUAS 


Las variables aleatorias continuas permiten establecer correspondencia de los resultados 
obtenidos en experimentos cuyos valores deben medirse en una escala continua y los números 
reales. Estos resultados pueden provenir de la medición de la duración de alguna actividad, 
pesar un artículo, etc. 


6.1 FUNCIÓN DE DENSIDAD DE PROBABILIDAD 


La probabilidad de una variable aleatoria continua puede medirse si existe una función 
denominada función de densidad de probabilidad o simplemente función de densidad, tal 
que el área debajo del gráfico de esta función cumpla los requisitos para que sea una medida 
del valor de probabilidad. 


Definición: Función de densidad de probabilidad 


Sea X una variable aleatoria continua. 
Se dice que f es una función de densidad de probabilidad si y solo si, 


b 
P(a<X<b) = f f(x)dx, siendo aj,beR 


Representación gráfica 


f(x) 


P(a<x<b) y 


a b 


Cada función de densidad de probabilidad debe cumplir las siguientes propiedades: 


Definición: Propiedades de una función de densidad de probabilidad 


1) f(x) 2 0, -o<x<+to (f(x) no puede tomar valores negativos 


+00 
2) f f(x)dx = 1 (El área total debajo de f(x) debe ser igual a 1) 


—0 


La primera definición implica que la probabilidad para variables aleatorias continuas solamente 
puede calcularse para intervalos de la variable. La probabilidad que la variable aleatoria tome 
algún valor real específico es cero. Este resultado debe entenderse de la siguiente definición: 


b 
lim P(a < X < b) = P(b < X < b) = P(X = b) = Í f(x)dx =0 
b 


a >b 


Por lo tanto, en el cálculo de probabilidad para variables aleatorias continuas, es igual incluir o 
no incluir los extremos del intervalo: 


P(a < X < b) = P(a < X < b) 
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Ejemplo 
Suponga que el tiempo de atención de cada cliente en una estación de servicio es una variable 
aleatoria continua con la función de densidad de probabilidad: 


202) O<x<1 


t(x) = 
0, otro x 
Verifique que cumple las propiedades de una función de densidad 


Sea X: variable aleatoria continua (duración en horas) 
1) f(x)20, -o<x<+tow: evidente para f(x) especificada 


> +00 1) 2 x? i 
f(x)dx = 1: —(x+2)dx = -(— +2x)| =1 
) $109 [0 2dax= ¿+20 
Calcule la probabilidad que el tiempo de atención esté entre 15 y 30 minutos 

1/2 2 

2 

P(1/14<X<112)= | 2 + 2jax = (E 42%) [12 = 19/80 = 0.2375 

1149 5 2 ma 
Representación gráfica 


f(x) 
5, 


P(1/4<X<1/2) 


6.2 FUNCIÓN DE DISTRIBUCIÓN 


Al igual que en el caso discreto se puede definir una función de probabilidad acumulada, la cual 
en el caso continuo se denomina función de distribución 


Definición: Función de distribución 


Sea X una variable aleatoria contínua con función de densidad f(X) 
Entonces, la función 


F(x) = P(X<x) = ff&dt , para -œ < x < +% 


se denomina función de distribución de la variable aleatoria X 


Definición: Propiedades de la función de distribución 


ICM ESPOL 


1) Pa F(x) = f(x) La derivada de la función de distribución es la densidad 
x 


2) a< b > F(a) < F(b), F es una función creciente 
3) P(a < x < b) = F(b) - F(a) 


La propiedad 3) es útil para calcular valores de probabilidad de la variable X 
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Ejemplo. 
Encuentre la función de distribución para el ejemplo anterior 


Respuesta 
Xx Xx 


2 2 t x 2x? 
F(x) = | f(Ðdt = | -(t + 2)dt =-(—+2t)|. = — (— + 2x 
09= f fodt= [raja gt +20 5 t 
Esta es una función cuyo dominio es el conjunto de los números reales:: 
0, x<0 
2 x’ 

F(x) = <—(— +2x) 0<x<1 
0) = 356 ) 

1 x>1 


Gráfico de la función de distribución 


FO) 


Use la Función de Distribución para calcular P(1/4<X<1/2) en el ejemplo anterior 


Respuesta 


2 
P(1/4<X<1/2) = F(1/2) - F(1/4) -2 (112 


= 19/80 


+ 2(1/2)) - + 2(1/ 4) 


2 (114? 
5 2 5 2 


EJERCICIOS 


1) La densidad de probabilidad de una variable aleatoria X está dada por 
630x*(1-x)*,0 1 
f(x) = | x“(1-x)%,0<x< 
0, otro x 


a) Verifique que satisface las propiedades de una función de densidad 

c) Calcule la probabilidad que X tenga un valor mayor a 0.75. 

e) Determine la probabilidad que X tome un valor dentro del intervalo de dos desviaciones 
estándar alrededor de la media y compare con el valor proporcionado por el Teorema de 
Chebyshev. 


2) El tiempo que tardan en atender a un individuo en una cafetería es una variable aleatoria con 


densidad de probabilidad 
—0.25X 
f(x) = o 0 , xX en minutos 
0, otro x 


Calcule la probabilidad que el tiempo que tardan en atenderlo sea más de 5 minutos 
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MATLAB 


Probabilidad con variables aleatorias continuas 


>> Syms x Para manejo simbólico de la variable x 
>> f = 2/5*(x + 2); Definición de una función de densidad 
>> p = int(f, 1/4, 1/2) Cálculo de la probabilidad P(1/4 < X < 1/2) 


19/80 
>> ezplot(f, 0, 1), grid on Gráfico de la función de densidad 


2/5 (x + 2) 


>> F = int(f) Obtención de la función de distribución 
F= 
1/5*x02+4/5*x 


>> p=eval(subs(F,'1/2”)) - eval(subs(F,'1/4”)) Cálculo de la probabilidad P(1/4 < X < 1/2) 
= con la función de distribución: F(1/2) — F(1/4) 


19/80 


>> ezplot(F, 0, 1), grid on Gráfico de la función de distribución 


1/5 x?+4/5 x 
4 - k - 


0.9 
0.8 
07 
0.6 
0.5 


0.4 
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6.3 MEDIA Y VARIANZA DE VARIABLES ALEATORIAS 
CONTINUAS 


Definición 


Sean X es una variable aleatoria continua 
f(x) función de densidad de probabilidad 


+00 
Media de X p=E09= fxf(x)dx 


—00 


+00 
Varianza deX o° = V(X) = E[Ocp)] = f (x— u)? f(x)dx 


—00 


Ejemplo 
Calcule la media y la varianza para el ejemplo de la estación de servicio en donde X es una 


variable aleatoria continua que representa tiempo de atención en horas, siendo sudensidad de 
probabilidad: 
2 
—(x+2), O<x<1 
f09 = (50+2 
0, otro x 
Respuesta 


7 2 232% 2 1 
= E(X) = | x-(x+2)dx = {— +x = 8/15 = 0.533 
55092 bs ¿le H] 
Es el tiempo de atención promedio para los clientes 


1 
o° = V(X) = E[O-p)?] = E(X - p? = f x? Zex +2)dx - (8/15)?= 0.0822 
0 


6.3.1 PROPIEDADES DE LA MEDIA Y LA VARIANZA 
Definiciones: 


Sea X una variable aleatoria continua con densidad de probabilidad f(x) 
a beR 
Media 
E[aX + b] = aE[X] + b 
Corolarios 
E(aX) = aE(X) 
E(b) = b 


Varianza 
V[aX + b] = a?V[X] 
Corolarios 
V(aX) = av(X) 
V(b) = 0 


Las demostraciones y los corolarios son similares al caso de las variables aleatorias discretas 
con la diferencia que en lugar de sumas, ahora se usan integrales. 
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6.3.2 VALOR ESPERADO DE EXPRESIONES CON UNA VARIABLE 
ALEATORIA 


Estas expresiones también son variables aleatorias y su dominio es el mismo que el dominio de 
la variable aleatoria, pero el rango puede ser diferente. 


Definición: Valor esperado de expresiones con una variable aleatoria 


Sea X: Variable aleatoria continua 

f(x): Densidad de probabilidad deX 

G(X): Alguna expresión con la variable aleatoria X 
Entonces 


+0 
HG = E[G(X)] = f G(x)f(x)dx es la media o valor esperado de G(X) 


—0 


Ejemplo 
Suponga que en ejemplo de la estación de servicio, el costo de atención a cada cliente está 
dado por la siguiente variable aleatoria: 
G(X) = 10 + 5X en dólares 
Calcule la media del costo de atención 


Respuesta 
E[G(X)] = E[10 + 5X] = 10 + 5E[X] = 10 + 5(8/15) = 12.667 dólares 


6.4 MOMENTOS Y FUNCIÓN GENERADORA DE MOMENTOS 
PARA VARIABLES ALEATORIAS CONTINUAS 

Las definiciones que fueron establecidas para las variables aleatorias discretas se extienden al 

caso discreto sustituyendo sumatorias por integrales 


Definiciones: 


Sean X: variable aleatoria continua 
f(x): densidad de probabilidad 


r-ésimo momento de X alrededor del origen 


wr = E[X'] = Ex gx 


o0 


r-ésimo momento de X alrededor de la media, o r-ésimo momento central 


ur = E[(X-u)"]= f (xp) f(x)dx 


o0 


Función generadora de momentos 


M(t) = E[e*] = [ e”fo)ax 


—0 


Obtención de momentos alrededor del origen 
r 


d 
” =— M(t) h- 
Hr de (t) lt=0 
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6.5 TEOREMA DE CHEBYSHEV 


El Teorema de Chebyshev es aplicable también a variables aleatorias contínuas. 
La demostración usa integrales en lugar de sumatorias 


Definición: 


. ; ; : ; 2 
Sea X una variable aleatoria continua con media H y varianza o”, entonces 


la probabilidad que X tome algún valor que no se desvíe de su media pu 
en más de ko, es al menos 1 — 1/k?: 


P(n-ko<x<u-ko)>1-1/k? , kek* 


EJERCICIOS 


1) La densidad de probabilidad de una variable aleatoria X está dada por 
630x*(1-x)*,0 1 
f(x) = l x“(1-x),0<x< 
0, otro x 


a) Calcule la media y varianza de X 
b) Calcule la media y varianza de la variable Y=2X+1. 


2) El tiempo que tardan en atender a una persona en una cafetería es una variable aleatoria 
con densidad de probabilidad 


0.258 2* 0 
fœ) = | e ,X> 


, X en minutos 
0, otro x 


Calcule la media y varianza de X 


3) Demuestre que si X es una variable aleatoria con media u tal que f(x)=0, para x<0, entonces 
para una constante positiva k cualquiera, se tiene: 


H 
P(x 2 k)< ~ 
Ls y 


Esta desigualdad se conoce como desigualdad de Markov y es utilizada también para acotar 
el valor de probabilidad de una variable aleatoria. 


MATLAB 


Media y varianza de variables aleatorias continuas 


>> Syms X Definir X para manejo simbólico 
>> f = 2/5*(x + 2); Función de densidad de X 


>> mu = int(x*f, 0,1) Media de X 


>> sigma2 = int(x72*f,0,1)-mus2 Varianza de X 
sigma2 = 
371450 


>> sigma = eval(sqrt(sigma2)) Desviación estándar 
sigma = 
0.5355 
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7 DISTRIBUCIONES DE PROBABILIDAD CONTINUAS 


En este capítulo se estudian los modelos matemáticos para calcular la probabilidad en algunos 
problemas típicos en los que intervienen variables aleatorias continuas. 


El objetivo es obtener una fórmula matemática f(x) para determinar los valores de probabilidad 
de la variable aleatoria X. 


7.1 DISTRIBUCIÓN UNIFORME CONTINUA 


Este modelo corresponde a una variable aleatoria continua cuyos valores tienen igual valor de 
probabilidad en un intervalo especificado para la variable 


Definición: Distribución uniforme 


Sea X: variable aleatoria continua. 
X tiene distribución uniforme si su densidad de probabilidad está dada por 


ps a<x<b 
fb9 =¿b-a? ` ` 


0, paraotro x 
a, b son los parámetros para este modelo 


Representación gráfica de la distribución uniforme continua 
f(x) 


Se puede observar que f(x) cumple las propiedades de las funciones de densidad 


7.1.1 MEDIA Y VARIANZA: DISTRIBUCIÓN UNIFORME CONTINUA 
Definición: 


Sea X: Variable aleatoria con distribución uniforme continua 


Media u= E(X) = Tla +b) 


Varianza o° = V(X) = Zib - a}? 
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Demostración para la media 
ñ R 1 f1a2 21] 1 
= E(X) = f(x)dx = dx = -(b* -af ) | => (a+b 
u=E(X)= f xf()dx Maat H )| >(a+b) 


—0 


7.1.2 FUNCIÓN DE DISTRIBUCIÓN DE PROBABILIDAD 


De acuerdo a la definición establecida: 
X 


F(x) = P(X<x) = Í f(t)dt, para -œ< x < +o 


—0 


Para la distribución uniforme continua: 


0, x<a 
X x 

F0) = PX) = f fidt = | dx -> > F&Q) = 4—5, asx<b 
—0 a 

L x>b 


Ejemplo 
Cuando falla cierto componente de una máquina, esta debe detenerse hasta que sea reparado. 
Suponiendo que el tiempo de reparación puede tomar cualquier valor entre 1 y 5 horas. 


a) Calcule la probabilidad que la duración tome al menos 2 horas 


Solución 
X: Variable aleatoria continua (duración de la reparación) 
Tiene distribución uniforme, por lo tanto, su función de densidad es 
f(x) = = = = =1/4,1<x<5 
b-a 5-1 


5 
P(X > 2) = [ qax= 3/4 = 75% 
2 


b) Calcule el valor esperado de la duración de la reparación 


Solución 


E(X) = a+ b)= 5 (1+5) = 3 horas 


b) Suponga que la reparación tiene un costo fijo de $100 y un costo variable de $10, el cual se 
incrementa cuadráticamente dependiendo de la duración. Calcule el valor esperado del costo de 
la reparación. 


Solución 
C: costo de la reparación (es una variable aleatoria continua) 
C = 100 + 10 x? 


E(C) = E(100 + 10 x°) = 100 + 10 E) 


x? 


5 5 
E(x) = f la -11 | 318 
"4 413 |, 


E(C) = 100 + 10(31/3) = $203.3 
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EJERCICIOS 


1) Se elige un punto C sobre una recta AB cuya longitud es k. Si la distancia entre C y A es una 
variable aleatoria X con distribución uniforme continua, calcule la probabilidad que la diferencia 
de longitud entre los segmentos AC y BC no exceda en mas de 10% de k. 


2) En un negocio de hamburguesas se despacha el refresco en vasos. La cantidad es una 
variables aleatoria con una distribución uniforme entre 130 y 160 ml. (mililitros) 

a) Calcule la probabilidad de obtener un vaso que contenga a lo más 140 ml. 

b) ¿Cuántos ml. contiene en promedio un vaso? 

c) Obtenga la varianza para la variable aleatoria 


3) Una resistencia eléctrica se comporta de acuerdo a una distribución continua con valores 
entre 900 y 1100 ohms. Encuentre la probabilidad que la resistencia, 

a) Aguante a lo más 950 ohms antes de quemarse 

b) Tenga un valor entre 950 y 1050 ohms. 
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7.2 DISTRIBUCIÓN NORMAL 


La Distribución Normal es la piedra angular de la teoría estadística moderna. Conocida y 
estudiada desde hace mucho tiempo, es utilizada para describir el comportamiento aleatorio de 
muchos procesos que ocurren en la naturaleza y también realizados por los humanos. 


Definición: Función de densidad de la distribución normal 


: : l ; : 2 
Sea X: Variable aleatoria continua con media u y varianza O 
X tiene distribución normal si su función de densidad es: 


1,X-4,2 
==) 
f(x) = A e2 5", -o<x<+to 
0.21 


Se puede demostrar que f cumple las propiedades de una función de densidad: 
1) f(x) > 0, -o<x<+o0: 


+00 
2) f f(xJdx=1 
La gráfica de f es similar al perfil del corte vertical de una campana y tiene las siguientes 
características: 
1) Es simétrica alrededor de u 
2) Su asíntota es el eje horizontal 


3) Sus puntos de inflexión están ubicados en 4-G y +0 


0.5 I 1 
== mu=0, sigma=1 
=— mu=2, sigma=0.8 
0.45 + —— mu=2, sigma=2 
0.4+ y 
0.35| 
0.3| 
0.25+ 
0.2} 
0.15} 
0.14 | 
0.05} 
0 1 L L J 
-6 -4 -2 0 2 4 6 8 10 


Gráfico de la distribución normal para varios valores de u y © 
Para calcular probabilidad se tiene la definición 
P(a<X<b) = [regar i siendo a,be KR 
También se puede deal la definición de distribución acumulada o función de distribución: 


F(x) = P(X<x) = f fdt , para -œ < x < +% 


Esta definición es útil para calcular probabilidad con la propiedad: P(a<X<b) = F(b) - F(a) 
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7.2.1 DISTRIBUCIÓN NORMAL ESTÁNDAR 


Para generalizar y facilitar el cálculo de probabilidad con la distribución normal, es conveniente 


definir la Distribución Normal Estándar que se obtiene haciendo pu = 0, y o? =1 enla 
función de densidad de la distribución normal 


Definición: Función de densidad de la distribución normal estándar 


: : l : ; 2 
Sea Z: Variable aleatoria continua con media u =0 y varianza © = 1 
Z tiene distribución normal estándar si su función de densidad es: 


Para calcular probabilidad con la distribución normal estándar se puede usar la definición de la 
distribución acumulada o función de distribución: 


Z z _1., 
F(z) = P(Z < z) = | toat =f e 2 dt, -0< Z< +o 


—0 


0.4 r j E 
=— Distribucion normal estandar 


o 3 2 Z- 0 1 2 3 Z 
Gráfico de la distribución normal estándar 


Para el cálculo manual se pueden usar tablas con valores de F(z) para algunos valores de z 
En un anexo se incluye una tabla de la distribución normal estándar. Esta tabla contiene los 
valores de F(z) con 6 decimales para valores de z en el intervalo de -3.59 a 3.59 con 


incrementos de 0.01. Los valores de F(z) fuera de este intervalo ya no son significativos. 


Para aplicaciones comunes es suficiente usar sólo los cuatro primeros decimales de F(z) 
redondeando el último dígito. 


Algunas tablas de la distribución normal estándar no incluyen valores de F(z) para valores 
negativos de z, por lo cual y por la simetría de f(z), se puede usar la siguiente relación: 


F(=2) = P(Z < -z) = P(Z > z) = 1 - P(Z <z)=1- F(z) > F(-2)=1-F(z) 
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Ejemplos 
Usando la tabla de la distribución normal estándar calcule: 
a) P(Z < 1.45) 


P(Z < 1.45) = F(1.45) = 0.9265 


El resultado se toma directamente de la tabla de la distribución normal estándar: 


0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.532922 0.527903 0.531881 0.535856 
0.539828 0.543795 0.547758 0.551717 0.555760 0.559618 0.563559 0.567495 0.571424 0.575345 
0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092 
0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732 
0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933 
0.691462 0.694974 0.698468 0.701944 0.705401 0.708840 0.7122 

0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.7453 

0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.7763 

0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.8051 

0.815940 0.818589 0.821214 0.823815 0.826391 0.828944 0.831472 

0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.8554 

0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.8 0.878999 0.881000 0.882977 
0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 165 0.897958 0.899727 0.901475 
0.903199 0.904902 0.906582 0.908241 0.909877 0.9114 .913085 0.914657 0.916207 0.917736 
0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888 
0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083 
0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486 


b) P(Z < -1.45) 
P(Z < -1.45) = F(-1.45) =0.0735 (Directamente de la tabla) 
F(-1.45) = 1 - F(1.45) = 1 - 0.9265 = 0.0735 (Usando la relación para valores negativos) 


c) P(Z > 1.45) 
P(Z > 1.45) = 1 - P(Z<1.45) = 1 - F(1.45) = 1 - 0.9264 = 0.0735 


d) P(1.25 < Z < 1.45) 
P(1.25 < Z < 1.45) = F(1.45) - F(1.25) = 0.9265 - 0.8944 = 0.0321 


e) Encuentre z tal que P(Z < z) = 0.64 
P(Z < z) = F(z) = 0.64 


En la tabla, el valor de z más cercano a F(z) = 0.64 corresponde a z = 0.36 


0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.532922 0.527903 0.531881 0.535856 
0.539828 0.543795 0.547758 0.551717 0.555760 0.559618 0.563559 0.567495 0.571424 0.575345 
0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092 
0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732 
0.655422 0.659097 0.662757 0.666402 0.670031 0 .67 7242 0.680822 0.684386 0.687933 
0.691462 0.694974 0.6 8840 0.712260 0.715661 0.719043 0.722405 
0.725747 0.729069 154 0.745373 0.748571 0.751748 0.754903 
0.758036 0.761148 373 0.776373 0.779350 0.782305 0.785236 
0.788145 0.791030 338 0.805106 0.807850 0.810570 0.813267 
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7.2.2 ESTANDARIZACION DE LA DISTRIBUCION NORMAL 
Si una variable tiene distribución normal, mediante una sustitución se la puede transformar a otra 
variable con distribución normal estándar. Este cambio de variable facilita el cálculo de 
probabilidad y se denomina estandarización de la distribución de la variable. 


Notación 
X ~ N(u, 0) Define a X como una variable con distribución normal 
con media u y desviación estándar © 
Z ~ N(0, 1) Define a Z como una variable con distribución normal estándar 
con media O y desviación estándar 1 


Definición: 
Sea X una variable aleatoria con distribución normal: X ~ N(u, 0), 
X-p 
lo] 
Tiene distribución normal estándar: Z ~ N(0, 1) 


Entonces, la variable aleatoria Z = 


Representación gráfica 


Mo, 


Jl x 


A 0 z ii Z 


Gráfico de la Distribución Normal y la Distribución Normal Estándar 


La relación entre X y Z es lineal, por lo tanto la distribución de Z debe tener una forma similar a la 
distribución normal. Mediante las definiciones de valor esperado y varianza: 


E(Z) = EE) = > E% - E(u)] = (u- p) =0 
va = EL) = ZN) - V()] + (0*-0)=1 


Se puede probar que Z tiene distribución normal estándar: Z ~ N(0, 1) 


Ejemplo. 
La duración de un evento tiene distribución normal con media 10 y varianza 4. 
Encuentre la probabilidad que el evento dure 


a) Menos de 9 horas 
b) Entre 11 y 12 horas 
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Respuesta 
Sea X: variable aleatoria continua (duración en horas) con distribución normal: 
X ~ N(10, 2) 


Entonces Z= 2 > tiene distribución normal estándar: Z ~ N(0, 1) 


a) P(X < 9) = P(Z< Ê -2 ) = P(Z < -0.5) = F(-0.5) = 0.3085 = 30.85% 


b) P(11 < X <12) = p1 <Z< 222) = P(0.5 < Z < 1) = F(1) - F(0.5) 


= 0.8413 - 0.6915 = 0.1498 


Ejemplo 
Sea X ~ N(10, 0). Encuentre © tal que P(X < 9) = 0.025 


Solución 


AA 


9 p 


N 


E 


A 


| 
z 0 
P(X < 9) = P(Z < z) = F(z) = 0.025 > z = -1.96 


> 1.96 = 9-10 > 0=0.5102 
lo 


Ejercicio 
Sea X - N(300, 50). Encuentre el valor de k tal que P(X>k) = 0.1075 


Le 


EL 


Solución 


P(X > k) = 0.1075 >> EE > Pe = 0.1075 > P(Z < z) = 1 - 0.1075 = 0.8925 
P(Z < z) = F(z) = 0.8925 > z = 1.24 
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7.2.3 VALORES REFERENCIALES DE LA DISTRIBUCIÓN NORMAL 


Hay ciertos valores de la distribución normal de uso frecuente en aplicaciones. 


Si X es una variable aleatoria con distribución normal, la probabilidad que tome valores en un 
intervalo centrado en p, hasta una distancia de una desviación estándar © es aproximadamente 


68%, hasta una distancia de 20 es aproximadamente 95% y hasta una distancia de 30 es 
cercano a 100% como se demuestra a continuación: 


A al <Z< 
o 


(+A) ra <z<x) 
[0 


= F(1) - F(-1) = 0.8413 — 0.1587 = 0.6826 = 68.26% 


P(u-20<X<u+ 20) = P( 


(u-20)-u <ZS (u+20)-H 0 2<z<>) 
o [e 


= F(2) — F(=2) = 0.9773 — 0.0228 = 0.9545 = 95.45% 


(1-30) -u 


P(u -30 < X < u +30) = P(E <z< 
(oJ 


(u+30)-H lp 3<z<3) 
o 


= F(3) — F(=3) = 0.9987 — 0.0014 = 0.9973 = 99.73% 


7.3 APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL 
CON LA DISTRIBUCION NORMAL ESTANDAR 
Sea X una variable aleatoria discreta con distribución binomial con media u = NP, y varianza 
o° = np(1-p) 
Entonces, el límite de la distribución de la variable aleatoria 


X-u_ X-np 


=—=, cuando n>, 
o ynp(1-p) 


Es la distribución normal estándar: N(0,1) 


Z= 


La demostración es una aplicación del Teorema del Límite Central, uno de los teoremas 
fundamentales de la estadística y que será enunciado posteriormente 


La bibliografía estadística establece que la aproximación es aceptable aún con valores pequeños 
de n, siempre que p esté cerca de 0.5, o si simultáneamente: 


np>5 y n(1-p)>5 
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Ejemplo 
En una fábrica, el 20% de los artículos salen defectuosos. Calcule la probabilidad que en un lote 
de 100 artículos elegidos al azar, 15 sean defectuosos 


Respuesta 
Sea X: variable aleatoria discreta con distribución binomial, con n=20, p=0.2 


El cálculo con el modelo de la distribución binomial puede ser impráctico: 


P(X=x) = o) p* (1-p)"* = P(X=15) o) (0.2)* (0.8) 


Se observa que np = 100(0.2) = 20, n(1-p) = 100(0.8) = 80. 


Siendo ambos productos mayores a 5, según el criterio dado, la distribución normal estándar 
será una aproximación aceptable: 


X-W_ X-np _  X-100(0.20) _X-20 


o  IÍnp(1-p) /100(0.20)(0.80) 4 


X (Binomial) 


: N | Estánd 
Z Z> Z (Normal Estándar) 


= P(-1.375 < Z < -1.125) = F(-1.125) - F(-1.375) 


mica a 9 dci a FE 14.5 -20 15.5 —- 20 
le] o 


= 0.130 - 0.084 = 0.046 = 4.6% 


Observe la corrección que se realiza al tomar el valor discreto para usarlo en la distribución 
normal. Para la distribución normal se considera que un valor discreto se extiende entre las 
mitades de los valores adyacentes: el valor 15 de la distribución binomial corresponde al 
intervalo (14.5, 15.5) para la distribución normal. 
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EJERCICIOS 


1) Suponga que Z es una variable aleatoria con distribución normal estándar. Use la tabla para 
calcular: 

a) P(Z<1.45) 

b) P(Z>2.01) 

c) P(Z<-1.24) 

d) P(Z>1.78) 

e) P(-1.25<Z<2.31) 


2) Suponga que X es una variable aleatoria con distribución normal, con media 25 y desviación 
estándar 5. Use la tabla para calcular 

a) P(X<18) 

b) P(X>30) 

c) P(24<X<27) 


3) Si X ~ N(10, o?) determine el valor de la varianza si P(X<9)=0.025 


4) El peso de los artículos producidos por una fábrica tiene distribución normal con una media 
de 50 gr. y una desviación estándar de 5 gr. 

a) Calcule la probabilidad que un artículo elegido al azar tenga un peso de mas de 60 gr. 

b) Calcule la proporción de los paquetes que tendrían un peso entre 46 y 54 gr. 


5) El tiempo necesario para llenar un frasco de un producto es una variable aleatoria que sigue 
una distribución normal con una media de 10 segundos y una desviación estándar de dos 
segundos. 

a) Calcule la probabilidad que el tiempo de llenado exceda a 11 segundos 

b) Encuentre el tiempo de llenado del frasco tal que la probabilidad de excederlo tenga una 
probabilidad de 3% 


6) Una fábrica de tornillos produce un tipo de tornillo con un diámetro promedio de 6.5 mm. y una 
desviación estándar de 1.5 mm. Suponiendo que la distribución es normal calcule la probabilidad 
de encontrar tornillos con diámetro 

a) mayor que 7mm. 

b) entre 6 y 7 mm. 


7) El pH de un químico tiene una distribución N(u, 0.10%). Durante la elaboración del producto 
se ordena suspender la producción si el pH supera el valor 7.20 o es inferior a 6.80. 

a) Calcule la probabilidad que la producción no sea suspendida si u=7.0 

b) Calcule la probabilidad que la producción no sea suspendida si u=7.05 

c) Cual debe ser u para que la probabilidad de que se suspenda la producción sea 0.85 


8) La tolerancia especificada para aceptar los ejes producidos por una fábrica es que el diámetro 
sea 0.45 + 0.005 cm. Si los ejes producidos por la fábrica tienen distribución normal con media 
0.452 y desviación estándar 0.003 cm., determine cuantos ejes serán rechazados de cada lote 
de 500 ejes producidos. 
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MATLAB 


ICM ESPOL 


Probabilidad con la distribución normal 


>> p=normcdf(-1.45) 


0.0735 


>> p=normcdf(1.45)-normcdf(1.25) 


0.0321 
>> p=normcdf(9, 10, 2) 
0.3085 
>> x=norminv(0.3085, 10, 2) 
eS 
8.9998 
>> x=-6: 0.5: 9; 
>> f=znormpdf(x, 2, 1.8); 
>> plot(x,f,'b'), grid on 
>> legend('mu=2, sigma=1.8') 


0.25 


-6 -4 -2 


>> f=normedf(x, 2, 1.8); 
>> plot(x,f,'ob'), grid on 
>> hold on 

>> plot(x,f,'b') 
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Distribución normal estándar acumulada, P(Z < -1.45) 


Calcular P(1.25 < Z < 1.45) 


Distribución normal: calcular P(X < 9), u =10, © =2 


Función inversa: calcular x tal que F(x) = 0.3085 
u =10, 60 =2 


x = -6, -5.5, -5.0,...,9 
Valores de densidad normal f(x), u = 2, © = 1.8 
Gráfico de la función de densidad normal 


6 8 10 


Valores de la distribución acumulada ų = 2, © = 1.8 
Gráfico de puntos de F(x) 

Superponer gráfico 

Gráfico de la distribución acumulada F(x) 
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7.4 DISTRIBUCIÓN GAMMA 


Es un modelo básico en la teoría estadística y corresponde a la siguiente definición 
Definición 


Sea X una variable aleatoria continua 
X tiene distribución Gamma si su función de densidad es 


1 EE 
a la xIB 


, X>0 
f(x) = 3 BT (a) 


0, para otro x 
a>0, B>0 son los parámetros para este modelo 


T(a) es la función gamma que está definida de la siguiente forma: 
T(a) = fe ax 
0 


Si a es un entero positivo, entonces 
T(a) = (a - 1)! 


Demostración 
T(a) = Je ax 
0 


u=x"“* > du=(a-1)x"?dx Para integrar por partes 
dv=e*dx > v=-e* 


Se obtiene 
T(a) = (a — yj x“2e dx = (a - 1)F(a - 1) 
0 


Sucesivamente 
T(a) = (a -1)(a-2)(a-3)...P (1). Finalmente, T(1) = 1 por integración directa. 


Graficación de la distribución gamma 
AE . Las “us . o + 
Son gráficos asimétricos con sesgo positivo y su dominio es R 


0.35, ——— — — — p 


0.31 


0.15} 
0.1} 


0.05} 


0 5 10 15 20 25 30 
La distribución Gamma para algunos valores de a, PB 
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7.4.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN GAMMA 


Definición: 


Sea X una variable aleatoria continua con distribución gamma, entonces 


Media: u= E(X) = aß Varianza: 0° = V(X) = aß? 


Demostración 


u= f xtodx= [xx tex = E [rea 
—o o PT(a) BT (a) o 
Mediante la sustitución y = xIfB 
1 ? E 
——— | (By) e "Bay 


añ p“T(a) y 


-B -P E 
F(0) T(a += Tía) al (a) = aß 


Ejemplo 
El tiempo en horas que semanalmente requiere una máquina para mantenimiento es una 
variable aleatoria con distribución gamma con parámetros a=3, ß=2 
a) Encuentre la probabilidad que en alguna semana el tiempo de mantenimiento sea mayo 
a 8 horas 
b) Si el costo de mantenimiento en dólares es C = 30X + 2X?, siendo X el tiempo de 
mantenimiento, encuentre el costo promedio de mantenimiento. 


Solución 
Sea X: duración del mantenimiento en horas (variable aleatoria) 
Su densidad de probabilidad es: 


f(x) = 1 jota > arto _ 1 2x2 


p“T(a) 23r(3) 16 


P(X>8) 


0 s 8 10 15 20 


Gráfico de la función de densidad para el ejemplo 
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a) P(X>8) es el área resaltada en el gráfico 


8 
P(X>8) = 1 - P(X<8) = 1 - Lt 
16) 


Para integrar se pueden aplicar dos veces la técnica de integración por partes: 


-x/2 


=-2 e”? + 4[x e*2dx 


fx e™!2dx 


u=x = du = dx 
dv=e dx > v=-2e*” 


= -2x 0 +20 * dx 
Sustituyendo los resultados intermedios, 
8 
P(X>8) = 1 - = [220% + 4(2x 0? + 2(-2 e? )] g 7 0.2381 


b) E(C) = E(30X + 2X°) = 30 E(X) + 2 E(X?) 
E(X) = aß = 3(2) = 6 


E(X) = | x?f(x)dx = | x? — x?e™*!?dx =— | xte dx 
1 J 16 16 J 
Sustituya y =X/2 para usar la función Gamma 
= zje e (2dy)=2 f yfe™Ydy = 2T(5) = 2(4!) = 48 
0 0 


Finalmente se obtiene 


E(C) = 30(6) + 2(48) = 276 dólares 


7.5 DISTRIBUCIÓN EXPONENCIAL 


Es un caso particular de la distribución gamma y tiene aplicaciones de interés práctico. 
Se obtiene con a =1 en la distribución gamma 


Definición 


Sea X una variable aleatoria continua X 
X tiene distribución exponencial si su densidad de probabilidad está dada por 


Lp x>0 


f(x) =3B 
0, para otro x 
En donde ß>0, es el parámetro para este modelo 


El gráfico de la densidad de probabilidad tiene la forma típica exponencial decreciente. 
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7.5.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN EXPONENCIAL 


Definición: 


Sea X una variable aleatoria continua con distribución exponencial, entonces 


Media: pu=E(X)=ß Varianza: 0° = V(X) =p? 


Se obtienen directamente de la distribución gamma con a= 1 


Problema 

Un sistema usa un componente cuya duración en años es una variable aleatoria con distribució 
exponencial con media de 4 años. Si se instalan 3 de estos componentes y trabajan 
independientemente, determine la probabilidad que al cabo de 6 años, dos de ellos sigan) 
funcionando. 


Solución 
Sea Y: variable aleatoria continua (duración de un componente en años) 


Y tiene distribución exponencial con = ß=4 


Su densidad de probabilidad es 
(y) = 701, y>0 
La probabilidad que un componente siga funcionando al cabo de 6 años: 


6 
P(Y>6) = 1 - P(Y<6) = 1- f iev! “dy = 0.2231 
0 


= Distribucion exponencial, beta=4 


Sea X: variable aleatoria discreta (cantidad de componentes que siguen 
funcionando luego de 6 años) 
X tiene distribución binomial con n=3, p=0.2231 


Su función de distribución de probabilidad es: 
n 3 
f(x) = (Jo (1-p)* = (Jo 2z31t0.7760*> 
Entonces, 


3 
P(X=2) = f(2) = (2) 0.223120.7769*? = 0.1160 = 11.6% 
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7.5.2 UNA APLICACIÓN DE LA DISTRIBUCIÓN EXPONENCIAL 

Puede demostrarse que si una variable aleatoria tiene distribución de Poisson con parámetro 
A, entonces el tiempo de espera entre dos “éxitos” consecutivos es una variable aleatoria con 
distribución exponencial con parámetro ß = 1/M 


Ejemplo 

La llegada de los barcos a un puerto tiene distribución de Poisson con media de 4 por día. 
Calcule la probabilidad que el tiempo transcurrido entre la llegada de dos barcos consecutivos e 
algún día sea menor a 4 horas. 


Solución 
Sea X el tiempo transcurrido entre dos llegadas consecutivas (en días) 
X es una variable aleatoria continua con distribución exponencial con parámetro 
B =1/ = 1/4 


Su función de probabilidad es 


f(x) = pa P=1e"=4e*, x>0 


1/6 
Por lo tanto, P(X<1/6) = f 4e**dx = 0.4866 = 48.66% 
O 


EJERCICIOS 


1) En cierta ciudad, el consumo diario de energía eléctrica en millones de Kw-hora puede 
considerarse como una variable aleatoria con distribución Gamma con a=3 y f=2. Si la planta 
de energía tiene una capacidad de producción diaria de doce millones de Kw-hora, calcule la 
probabilidad que en un día cualquiera, el suministro de energía sea insuficiente. 


2) La duración en miles de Km. de cierto tipo de llantas, es una variable aleatoria con distribución 
exponencial con media 40 mil Km. Calcule la probabilidad que una de estas llantas dure 

a) Al menos 20 mil Km. 

b) No más de 30 mil Km. 


3) El tiempo que transcurre antes de que una persona sea atendida en un bar es una variable 
aleatoria que se puede modelar col la distribución exponencial con una media de 5 minutos. 
Calcule la probabilidad de que una persona sea atendida antes de que transcurran 3 minutos en 
al menos 4 de los 7 días siguientes. 


4) Se conoce que la cantidad de reparaciones que cierto tipo de electrodoméstico necesita, tiene 
distribución de Poisson con una media de una vez cada dos años. Suponiendo que los intervalos 
entre reparaciones tienen distribución exponencial. Calcule la probabilidad que este artículo 
funcione por lo menos tres años sin requerir reparación. 
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MATLAB 


Probabilidad con la distribución gamma 


>> x=0:0.5:30; x=0,0.5,1,...,30 

>> f=zgampdf(x, 3, 2); Valores de densidad de probabilidad gamma, a = 3, fB 
>> plot(x, f, 'b'), grid on Gráfico de la densidad de probabilidad gamma, a = 3, 
>> legend('Gamma, alfa=3, beta=2"); 


— Gamma. alfa=3, beta=2 


>> p=gamcdf(8, 3, 2) Distribución gamma acumulada: F(8) = P(X<8), a = 3, 


0.7619 
>> x=gaminv(0.7619, 3, 2) Distribución gamma acumulada inversa: 
x= Encontrar x tal que P(X<x) = 0.7619, a = 3, p=2 
8.0000 
>> [mu, var]=gamstat(3, 2) Media y varianza de la distribución gamma, a = 3, B=2 
mu= 6 
var = 12 


Probabilidad con la distribución exponencial 


>> x=0:0.5:20; x = 0, 0.5, 1.0, ..., 20 

>> f=exppdf(x,4); Valores de densidad de probabilidad exponencial, B = 4 
>> plot(x,f,'k),grid on Gráfico de la densidad de probabilidad exponencial ß = 4 
>> legend('Distribucion exponencial, beta=4") 


— Distribucion exponencial. beta=4 
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>> p=expcdí(6, 4) Distribución exponencial acumulada: F(6) = P(X<6), B = 4 


0.7769 


>> x=expinv(0.7769, 4) Distribución exponencial acumulada inversa: 
Encontrar x tal que P(X<x) = 0.7769, B=4 
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7.6 DISTRIBUCIÓN DE WEIBULL 


Este modelo propuesto por Weibull se usa en problemas relacionados con falla de materiales y 
estudios de confiabilidad. Para estas aplicaciones es más flexible que el modelo exponencial 


Definición 


Una variable aleatoria continua X tiene distribución de Weibull si su densidad 
de probabilidad está dada por 


B-1 -axP 
too -doP es”, x>0 


0, para otro x 
En donde a>0, B>0 son los parámetros para este modelo 


Si B = 1, este modelo se reduce a la distribución exponencial. 
Si 8 > 1, el modelo tiene forma acampanada con sesgo positivo 


Gráficos de la distribución de Weibull 


7.6.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN DE WEIBULL 
Definición 


Si X es una variable aleatoria continua con distribución de Weibull, entonces 


Media u = E(X) = “PT (1+1/8) 
Varianza o° = V(X) = a”P[Ir(1+21p) - (F(1+1/8))*] 


Demostración 
Con la definición 


H=E(X)= f xf(x)dx = f xapx" "e=" dx 
—o 0 

Usando la sustitución 

y =ax? > dy = aßx’"dx = pyx*dx = By(yla) dx 
Se obtiene o 

j= quo | y edy 

0 

Finalmente, se compara con la función gamma 

u = a Pr(1+1/8) 
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Ejemplo 
Suponga que la vida útil en horas de un componente electrónico tiene distribución de 
Weibull con a=0.1, f$=0.5 

a) Calcule la vida útil promedio 

b) Calcule la probabilidad que dure mas de 300 horas 


Solución 
Sea X: vida útil en horas (variable aleatoria continua) 
su densidad de probabilidad: 


f09= apx’ eÀ = 0,05x 900” 
p=a*Pr(1+1/8) = (0.1) %%T(1+1/0.5) = 0.1?T(3) = 200 horas 


P(X>300) = f 0.05x e” dx 


300 
A 05 B -0.5 1 a 
Mediante la sustitución y=x ` = dy = 0.5x ` dx =0.5(—)dx = dx= 
y 


se obtiene 
P(X>300) = 0.05 f Že?» Y gy=0.1 | e”dy 
V300 
= 1 - P(X<300) = 1 - 0.1 f e®tdy = 0.177 
[4 


7.7 RAZÓN DE FALLA 


Si la variable aleatoria es el tiempo t en que falla un equipo, el índice o razón de falla en el 
instante t es la función de densidad de falla al tiempo t, dado que la falla no ocurre antes de t. 


Definición: 


Sean t: Variable aleatoria continua (tiempo) 

f(t): Función de densidad de probabilidad 

F(t): Función de distribución (función de probabilidad acumulada) 
Entonces 
r(t) f(t) 


= es la razón de falla 
1-F(t) 


7.8 DISTRIBUCIÓN BETA 


Este modelo tiene aplicaciones importantes por la variedad de formas diferentes que puede 
tomar su función de densidad eligiendo valores para sus parámetros. 


Definición 


Una variable aleatoria continua X tiene distribución beta si su densidad de 
probabilidad está dada por 


Tarp) x“*(1-x)*, 0<x<1 


f(x) = 4 r(a)r (p) 


0, para otro x 


En donde a>0, B>0 son los parámetros para este modelo. T() es la función gamma 


El dominio de la distribución beta es el intervalo (0, 1), pero puede adaptarse a otros intervalos 
finitos mediante alguna sustitución. 
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0 0.1 0.2 0.3 0.4 05 0.6 0.7 0.8 0.9 1 
Gráfico de la distribución beta para algunos valores a, f 


7.8.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN BETA 
Definición 


Si X es una variable aleatoria continua con distribución beta, entonces 
a 
Media: = E(X) = 
H = E(X) aP 
e 
(a+) (a+B+I 


Varianza: o= V(X) 


La demostración se fundamenta en la definición de la función beta. 


Ejemplo 
Un distribuidor de cierto producto llena su bodega al inicio de cada semana. La proporción del 
artículo que vende semanalmente se puede modelar con la distribución beta con a=4, B=2 

a) Encuentre el valor esperado de la proporción de venta semanal 

b) Encuentre la probabilidad que en alguna semana venda al menos 90% 


Solución 
Sea X: proporción del artículo que vende semanalmente (variable aleatoria continua) 

Su densidad de probabilidad es 
4+2 
tpo = 26+2 


4-1 21 $ 
Tara” (1-xJ=20x (1-x), O<x<1 


P(X>0.9) 
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7.9 DISTRIBUCIÓN DE ERLANG 


La función de densidad de la distribución de Erlang es igual a la distribución gamma, pero el 
parámetro a debe ser entero positivo. 
Definición 


Una variable aleatoria continua X tiene distribución de Erlang si su densidad de probabilidad 
está dada por 


1 
f(x) =; BT (a) 


0, para otro x 


a>0, B>0 son los parámetros para este modelo, a entero positivo 


xte™P, x>0 


7.9.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN DE ERLANG 
Definición 
Si X es una variable aleatoria continua con distribución de Erlang, entonces 


Media: u = E(X) = af, Varianza: o’ = V(X) = aß? 


7.10 DISTRIBUCIÓN JI-CUADRADO 


Este modelo es importante en el estudio de la estadística inferencial. Se obtiene de la 
distribución gamma con a= v/2, B=2 


Definición 


Una variable aleatoria continua X tiene distribución Ji-cuadrada si su densidad de probabilidad 
está dada por 


1 
f(x) =42"?T(v12) 
0, para otro x 


Esta distribución tiene un parámetro: v > 0 y se denomina número de grados de libertad. 
7.10.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN JI-CUADRADO 
Definición 


Si X es una variable aleatoria continua con distribución Ji-cuadrado, entonces 


Media u = E(X) = v, Varianza: o°= V(X) = 2v 


Se obtienen directamente de la distribución gamma con a = v/2, p=2 
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EJERCICIOS 


1) 


2) 


3) 


4) 
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Si la proporción anual de declaraciones incorrectas del impuesto sobre la renta 
entregadas al fisco puede considerarse como una variable aleatoria que tiene una 
distribución Beta con a=2 y ß=9. 
a) Calcule la probabilidad que en un año cualquiera haya mas de 40% de 
declaraciones incorrectas 
b) Encuentre la media de esta distribución, es decir, la proporción de 
declaraciones que en promedio serán incorrectas 


Suponga que el tiempo de servicio en horas de un semiconductor es una variable 
aleatoria que tiene distribución de Weibull con a=0.025, f$=0.5 
a) Calcule el tiempo esperado de duración del semiconductor 
b) Calcule la probabilidad que este semiconductor esté funcionando después de 
4000 horas de uso 


Sea t una variable aleatoria continua que representa el tiempo de falla de un equipo. 
Demuestre que si t tiene distribución exponencial, la razón de falla es constante. 


Durante cada turno de trabajo de 8 horas, la proporción de tiempo que una máquina 
está en reparación tiene distribución beta con a=1 y ß=2. 
a) Determine la probabilidad que la proporción del turno que la máquina está en 
reparación se menor que 2 horas 
b) Si el costo de reparación es $100 mas $10 por la duración al cuadrado, 
encuentre el valor esperado del costo de reparación 
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MATLAB 


Distribución de Weibull 
>> p=weibcdf(300,0.1,0.5) Distribución acumulada Weibull, a = 0.1, B = 0.5 
p= Calcular P(X<300) 
0.8231 
>> [mu, var]=weibstat(0.1, 0.5) Media y varianza distr. Weibull, a. = 0.1, 8 = 0.5 
mu = 200.0000 
var = 2.0000e+005 
>> x=0:0.1:5; 
>> f=weibpdf(x,0.8,1.5); Puntos de la distr. Weibull, a = 0.8, 8 = 1.5 
>> plot(x,f,'k'), grid on Gráfico de la distribución Weibull 
>> legend('Weibull - alfa = 0.8, beta = 1.5') 
0.7 - - - - - - 


[—— Weibull - alfa = 0.8, beta = 1.5 


Distribución beta 
>> p=betacdf(0.9, 4, 2) Distribución acumulada beta, a =4,P=2 
p= Calcular P(X<0.9) 
0.9185 
>> x=betainv(0.9185, 4, 2) Distribución beta inversa 
x= Calcular x tal que F(x) = 0.9185, a = 4, p =2 
0.9000 
>> [mu, var] = betastat(4, 2) Media y varianza distr. beta, a=4,fP=2 
mu = 0.6667 
var = 0.0317 
>> x=0: 0.05: 1; 
>> f=betapdf(x, 4, 2); Puntos de la distr. beta, a = 4, p=2 
>> plot(x, f, 'k'), grid on Gráfico de la distribución beta 
>> legend('Distribucion beta, alfa=4, beta=2') 


25 + z z r z 
== Distribucion beta, alfa=4, beta=2 
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Distribución ji-cuadrado 


>> p=chi2cdf(2,5) Distribución acumulada ji-cuadrado, v = 5 

p= Calcular P(X<2) 
0.1509 

>> [mu, var]=chi2stat(5) Media y varianza distr. ji-cuadrado, v = 5 
mu= 5 
var = 10 

>> x=0:0.5:20; 

>> f=chi2pdf(x,5); Puntos de la distr. ji-cuadrado, v = 5 

>> plot(x,f,'k'), grid on Gráfico de la distribución ji-cuadrado 

>> legend('Distribucion ji-cuadrado, nu=5”) 


0.16 E - - - 
= Distribucion j-cuadrado, nu=5 
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7.11 DISTRIBUCIÓN EMPÍRICA ACUMULADA 


Esta distribución es un modelo matemático que se asigna a un conjunto de datos cuando se 
desconoce si pertenecen a un modelo de probabilidad específico. La distribución empírica 
acumulada es una función de probabilidad que asocia cada valor de la variable x con la 
proporción de datos menores que el valor de x dado 


Definición: Distribución empírica acumulada 


Sean 

X1, X2; . »- -y Xn , datos obtenidos en una muestra. 
Si se escriben estos datos en orden creciente: 

X(1) X(2) a X(n) 
Se define la distribución empírica acumulada 


Ejemplo. Dados los siguientes datos de una muestra: 4, 3, 8, 6, 5 
Encuentre y grafique la distribución empírica 


Solución 
Datos ordenados: 3,4,5,6,8 (n=5) 


Su distribución empírica acumulada es: 


0, x<3 
1/5, 3<x<4 
215, 4<x<5 
3/5, 5<x<6 
4/5, 6<x<8 
1 x>8 
Gráfico de la distribución empírica acumulada 


EJERCICIOS 


1) Grafique la distribución empírica correspondiente a los siguientes datos 
14, 5, 8, 3, 8, 7, 11, 13, 14, 3 


2) Calcule la media aritmética, mediana, varianza, y distribución empírica de la siguiente 
muestra: 4, 8, 2, 7,10, 8, 4, 9, 7 
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MATLAB 


Gráfico de la distribución empírica y la distribución normal acumuladas 


>> x=[3 4 5 6 8]; Vector con datos de una muestra 

>> cdfplot(x) Gráfico de la distribución empírica acumulada 

>> m=mean(x); Media muestral 

>> s=std(x); Desviación estándar muestral 

>> z=0: 0.1: 10; Puntos para la distribución normal acumulada 

>> hold on Para superponer gráficos 

>> f=znormcdf(z, m, s); Valores de la distribución normal acumulada para los puntos 
>> plot(z, f, '.k') Gráfico de la distribución normal acumulada, puntos en negro 
>> legend('Distribucion empirica','Distribucion normal',2) Colocar rótulos arriba izquierda 


Empirical CDF 
1 Y Y I T 
— Distribucion empirica | 
Distribucion normal 
0.9} 


0.8} 
0.7} 


0.6} 
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8 DISTRIBUCIONES DE PROBABILIDAD CONJUNTA 


Algunos experimentos estadísticos pueden incluir más de una variable aleatoria las cuales 
actúan en forma conjunta, y es de interés determinar la probabilidad correspondiente a los 
diferentes valores que estas variables puedan tomar. 


8.1 CASO DISCRETO BIVARIADO 


8.1.1 DISTRIBUCIÓN DE PROBABILIDAD CONJUNTA 


Definición: Distribución de probabilidad conjunta 


Sean X, Y: variables aleatorias discretas. 
xX, y: valores que pueden tomar X, Y 


Su función de distribución de probabilidad conjunta se escribe f(x,y) 
y describe el valor de probabilidad en cada punto P(X=x, Y=y) 


Esta función establece correspondencia de (x,y) a (0,1) y satisface las siguientes propiedades 


1) VxVy f(x,y)>0 f no puede tomar valores negativos 
2) Y f(x y) =1 La suma de todos los valores de f debe ser 1 
x y 
3) P(X=x, Y=y) = f(x,y) f debe ser un modelo útil para calcular probabilidad 


8.1.2 DISTRIBUCIÓN DE PROBABILIDAD ACUMULADA CONJUNTA 


Definición: Distribución de probabilidad acumulada conjunta 


F(x,y) = P(X<x, Y<y) = J, Df(s,t), -œ < x, y < œ 


s<xt<y 


Ejemplo 
Suponga que X, Y son variables aleatorias discretas cuya función de distribución de 
probabilidad está descrita en el siguiente cuadro 

X 


0 1 2 


0.1 0.2 0.05 
k i e 


a) Verifique que f(x, y) cumple las propiedades 1) y 2) 


Por simple observación en el cuadro con los valores de f(x,y) 


b) Determine la probabilidad que X=0 y que Y=2 
P(X=0, Y=2) = f(O, 2) = 0.3 
c) Calcule la probabilidad que X>0 y que Y=1 


P(X>0, Y=1) = f(1,1) + (2,1) = 0.2 + 0.05 = 0.25 


Ejemplo 
Determine el valor de k para que la función 
f(x,y) = kxy, x=1,2,3; y=1,2 
Pueda usarse como una función de probabilidad conjunta con las variables X, Y 
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Si es una función de probabilidad debe cumplir la propiedad SY f(x y) =1 
x y 

Tabulación de los valores de f(x, y) 

x 

1 


2 


3 


3 2 
Entonces: YY f(x,y) =k + 2k + 2k + 4k + 3k + 6k = 18k=1 > k= 1/18 
x=1y=1 
Así, la función de distribución de probabilidad conjunta es 


f(x, y) = 9 x=1,2,3; y=1, 2; cero para otros (x, y) 


Se puede expresar en forma tabular 
X 


Y 


1 


2 


3 


1 


1/18 


2/18 


3/18 


2 


2/18 


4/18 


6/18 


Se puede usar una representación gráfica en tres dimensiones: 


8.1.3 DISTRIBUCIONES DE PROBABILIDAD MARGINAL 


Cuando se estudian más de una variable aleatoria en forma conjunta, puede ser de interés 
conocer la distribución de probabilidad de las variables aleatorias individualmente. Estas 
funciones se denominan distribuciones marginales 


Definiciones 


Sean X,Y variables aleatorias discretas y 
f(x,y) función de probabilidad conjunta. 
Entonces 


Distribución marginal de X 


g(x) = Y'f(x,y) 
y 


Distribución marginal de Y 


h(y) = J f(x,y) 
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Las distribuciones marginales g(x), h(y) son funciones de probabilidad de las variables 
aleatorias X, Y separadamente. Estas funciones deben cumplir las propiedades de una función 
de probabilidad y pueden ser usadas para calcular probabilidad para cada variable. 


1) g(x)>0, h(y)>0, x,yeKR 
2) Y g(x)=1, $ h(y)=1 
x y 


3) P(X=x) = g(x) 
P(Y=y) = h(y) 


Ejemplo. 
Suponga que X, Y son variables aleatorias discretas cuya función de distribución de 
probabilidad conjunta está descrita en el siguiente cuadro 

X 


Y 


0 


1 


2 


1 


0.1 


0.2 


0.05 


2 


0.3 


o1 


0.29 


a) Encuentre las distribuciones marginales tabularmente 


Se suman los valores de filas y columnas y se escriben en los márgenes. Estos valores 
representan la probabilidad de una variable, incluyendo todos los valores de la otra variable. 


h(y) 


1 


0.35 


2 


0.65 


g(x) 


1 


b) Calcule P(X=1) 
P(X=1) = g(1) = 0.3 


c) Calcule P(Y=2) 
P(Y=2) = h(2) = 0.65 


Ejemplo 
Sean X, Y piet aleatorias con la siguiente función de probabilidad conjunta 


f(x,y) = Y x=1,2,3; y=1,2 


a) Encuentre a A marginales analíticamente 


2 
a0) = 210 y)= OS x=1,2,3 


3 


h(y) = 210% y) = 2 


y y 
== (14+24+3)=2, =1,2 
x p” +3) 3 y 


b) Calcule P(X=3), P(Y=1) 


P(X=3) = g(3) = 1/2 
P(Y=1) = h(1) = 1/3 


En los ejemplos anteriores se puede verificar que las distribuciones marginales g(x) y h(y) 
cumplen las propiedades 1), 2), tabularmente o analíticamente. 
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8.1.4 DISTRIBUCIONES DE PROBABILIDAD CONDICIONAL 

Cuando se estudian más de una variable aleatoria en forma conjunta, puede ser de interés 
conocer la distribución de probabilidad de cada variable aleatoria dado que la otra variable 
aleatoria toma un valor específico. Estas funciones se denominan distribuciones condicionales. 


Recordemos la fórmula de probabilidad condicional para eventos 
P(A|B) = P(A”NB)P(B) 


Definamos los eventos A, B de la siguiente manera 
A: X=x 
B: Y=y 


Siendo X, Y variables aleatorias discretas con distribución de probabilidad conjunta f(x,y), 
Entonces, 
p(x=x|Y=y) = P= %Y =V) 
P(Y =y) 
Que se puede expresar con la notación establecida para las distribuciones conjuntas: 
f(x, 
tixy) = V 
h(y) 
La función f(x|y) también satisface las propiedades de las funciones de probabilidad 


Definiciones 


Sean X,Y variables aleatorias discretas 
f(x, y) distribución de probabilidad conjunta 
Entonces, 


f(xly) = 


f(x,y) 


Es la distribución condicional de X dado que Y=y 
h(y) 
f(y|x) = fan Es la distribución condicional de Y dado que X=x 
g(x 


Las distribuciones condicionales f(x|y), f(y|x) son funciones de probabilidad de X, Y. Estas 
funciones cumplen las propiedades establecidas y pueden usarse para calcular probabilidad 
condicional. 


1) fíxly)>0,xeR,  f(ylx)>0, yeR 
2) Nixly)=1, Dflylx)=1 
x y 


Ejemplo. 
Suponga que X, Y son variables aleatorias discretas cuya función de distribución de 
probabilidad está descrita en el siguiente cuadro 

X 


Y 


0 


1 


h(y) 


1 


01 


0.2 


0.35 


2 


0.3 


0.1 


0.65 


g(x) 


0.4 


0.3 


il 


Calcule la probabilidad condicional P(X=2 | Y=1) 


f(2,1) _ 0.05. 0.1429 
h(1) 0.35 


P(X=2 | Y=1) = f(2 | 1) = 
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Ejemplo 
Sean X, Y variables aleatorias con la siguiente función de probabilidad conjunta 


f(x,y) Y x=1,2,3; y=1,2; cero para otro (x, y) 


a) Encuentre las distribuciones condicionales analíticamente 


Previamente se obtuvieron las distribuciones marginales: 
g(x)=x/6, x=1,2,3 
h(y) =y/3, y=1,2 

Por lo tanto, para este problema: 

xy 


1 
f(x] y) = w = a Sa Significa que X no depende de Y 


f(x,y) _ 
g(x) 


f(y | x)= Significa que Y no depende de X 


6 
b) Calcule la probabilidad condicional P(X=1 | Y=2) 


P(X=x | Y=y) = f(x | y) => => P(X=1 | Y=2) = f(1 | 2) = 1/6 


8.1.5 VARIABLES ALEATORIAS DISCRETAS INDEPENDIENTES 
Definición 


Se dice que X, Y son variables aleatorias discretas estadísticamente 


independientes si y solo si en cada punto (x, y): f(x,y) = g(x) h(y) 


Demostración 
Sean X,Y variables aleatorias discretas y f(x,y) su distribución de probabilidad conjunta. 


Su distribución condicional f(x|y) es 


f(x,y) 
f(xly) = -= 
h(y) 
Su distribución marginal g(x) es: 


g(x) = $ f(x,y) 
y 


Sustituimos la distribución condicional en la distribución marginal: 


g(x) = $ f(x | y)h(y) 
y 


Supongamos que f(x|y) no depende de y. Esto significa que la expresión f(x|y) no contendrá 
a la variable y. Por lo tanto, puede salir de la sumatoria: 


g(x) = f(xly) X h(y) 
y 
Pero S h(y) =1, pues h(y) es también una función de distribución de probabilidad . 
y 


Entonces f(xly) = g(x) 


Sustituyendo en la distribución condicional al inico, se obtiene f(x,y) = g(x) h(y) 
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Ejemplo 
Sean X, Y variables aleatorias discretas cuya función de distribución de probabilidad conjunta 


es (y = Y x=1,2,3; y=1,2 


Pruebe que X, Y son variables aleatorias estadísticamente independientes 


Solución 
Se tienen las distribuciones marginales 


h(y) = 
Entonces 


= (ŠW = A = = $ = 
g(x)h(y) = UE 18 xy f(x,y), X 1, 2, 3; y 1, 2 


Por lo tanto, X, Y son variables aleatorias estadísticamente independientes. 


Siendo X, Y variables aleatorias estadísticamente independientes se cumple también que 


1 
f(x,y) 18 x _txy) 18 Y yL 
hy) y 76 g(x)  f(y|x)= a) x 73 h(y) 
3 6 


f(x] y) = 


8.2 CASO DISCRETO TRIVARIADO 


Las definiciones para distribuciones bivariadas pueden extenderse a más variables. 


El siguiente ejemplo es una referencia para los conceptos relacionados 


Ejemplo 


Sea V un vector aleatorio discreto cuyos componentes son las variables aleatorias X, Y, Z 
con distribución de probabilidad conjunta 


f(x z)= kx? (y - z);x = 1,2,3; y = 3,4;z = 1,2 
hida 0; para el resto de x,y,z 


a) Tabule f(x,y,z) para todos los valores de los componentes 


Primero debe determinarse k con la propiedad de las funciones de probabilidad: 


f(x, y, z) =1 


lod (y - z) = DY Y (y-2) =k(14)(8) =1 > k=1/112 


y=3 z=1 x=1 y=3 z=1 


3 
x=1 
3 
x=1 


Entonces la distribución conjunta es: 


1 2 PPOB E E A 
ATA T (y - z);x =1,2,3;y = 3,4;z = 1,2 


0; para el resto de x,y,z 
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Tabulación 


f(x,y,z) 
2/112 
1/112 
3/112 
2/112 
8/112 
4/1112 
12/112 
8/112 
18/112 
9/112 
27/112 
18/112 


WIWIWIWININININIeE|e|ej|e]|x 


B|¡BjO[O|B|Ba|[O0|0|B|Eajw|w 
N|[PIN[PRÍN|[PRIN[PRIN|[RIÍN|[PRIN 


b) Encuentre las distribuciones marginales univariadas 


Ancona Hange por a a as el dominio de cada neón 


109= 21 a hina” v-z- ADV 


y=3 z=1 y=3 z=1 


Y ly 2) = M14)ly—1+y-2)= (24-39) 


“AAT” 

3 4 3 3 4 

f(z) = — x (y -z)=—— ? x z) = —-(-2z +7 

(z) PI “(y-2) Pa 2, 20y- ) IE ) 
Tabularmente, sumando el contenido de la tabla de la distribución conjunta 


x 1 2 3 
f(x) 8/112 32/112 72/112 


y 3 4 
f(y) 42/112 | 70/112 


z 1 2 
f(z) 70/112 42/112 


c) Encuentre las distribuciones marginales bivariadas 
Analíticamente, dando por entendido el dominio de cada función 


fy) = Dota yi2) = Dt E Yv-2)- 190 3) 


f(x,z) = 21062) = 2 (y -Z) = 5 e3- z)= 22 +7) 
(y- z) =- - E y- z) 


f(y,z) = Y 1 y,z) = DA ÓN ¿y TF 


Temene. anda el contenido de la tabla de la distribución conjunta 


f(x,y) 
X 


2 


3 


12/112 


27/112 


20/112 


45/112 


2 


3 


20/112 


45/112 


12/112 


27/112 
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3 4 


28/112 | 42/112 
14/112 | 28/112 


Se puede observar, analiticamente o tabularmente, que 
f(x,y) = f(x) f(y) 
f(x,z) = f(x) f(z) 
f(y,z) + f(y) f(z) 


Entonces, 
X, Y son variables aleatorias estadísticamente independientes 
X, Z son variables aleatorias estadísticamente independientes 
Y, Z son variables aleatorias estadísticamente no independientes 


d) Encuentre las distribuciones condicionales 
Analíticamente, dando por entendido el dominio de cada función 


xê 
f(x,y) _ 112 


(2y -3) x 8x? 

fy) T4 ayga 14 112 
q2 73) 

=>  f(xly) = f(x) pues X, Y son estadísticamente independientes 


f(X =x]|Y = y) =f(x] y) = 


También se puede verificar que 
f(x|z) = f(x) pues X, Z son estadísticamente independientes 


Mientras que para f(y| z), se debe encontrar la relación 


f(y,z) _ 
f(z) 14 
112 


f(y | z) = 


Tabularmente 


f(y|z=1) f(y|z=2) 
215 1/3 
3/5 2/13 


EJERCICIOS 


Si la distribución de probabilidad conjunta de las variables aleatorias discretas X, Y 
está dada por 


f(x, y) = A+ y) , X=0, 1, 2,3; —y=0,1,2 


a) Verifique que es una función de probabilidad 

b) Construya una tabla con todos los valores de probabilidad 

c) Obtenga tabularmente la distribución marginal de X 

d) Exprese mediante una fórmula la distribución marginal de Y 

e) Obtenga la distribución condicional de X dado que Y=1 

f) Obtenga la distribución condicional de Y dado que X=2 

g) Determine si las dos variables aleatorias son estadísticamente independientes 
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8.3 CASO CONTINUO BIVARIADO 


8.3.1 DENSIDAD DE PROBABILIDAD CONJUNTA 
Definición: Función de densidad de probabilidad conjunta 


Sean X, Y: variables aleatorias continuas. 


Su función de densidad de probabilidad conjunta se escribe f(x,y) 


Esta función debe satisfacer las siguientes propiedades 
1) f(x y) > 0, xeR, ye R 


2) f f f(x, y)dxdy = 1 


La función de densidad de probabilidad conjunta puede usarse para calcular probabilidad 
db 


3) P(a<X<b, esY<d) = Í f(x, y)dxdy 


La función de densidad de probabilidad de dos variables aleatorias continuas X, Y, es una 
superficie en el espacio. El volumen debajo de esta superficie sobre el plano X-Y es igual a 1. 


La probabilidad P(a<X<b, c<Y<d) es igual a la porción del volumen debajo de la superficie 
f(x,y) y sobre el rectángulo a<X<b, c <Y<d 


P(a<X<b, c<Y<d) 


8.3.2 DISTRIBUCIÓN DE PROBABILIDAD ACUMULADA CONJUNTA 


Definición: 


y x 
P(X<x, Y<y) = F(x,y) = f f f(u,v)dudv -oœ < X, y < œ 


—00 —00 
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Ejemplo. 
Suponga que el tiempo semanal de mantenimiento de una máquina depende de dos variables 
aleatorias continuas medidas en horas: 
X: duración del mantenimiento mecánico 
Y: duración el mantenimiento eléctrico 
Suponga que la densidad de probabilidad conjunta es 


Z x+2y), 0<x,y<1 


f(x,y) = 
0, otros x, y 


a) Verifique que f(x, y) es una función de densidad de probabilidad 
1) f(x,y)20, xeR, yeR. 


2) f f f(x, y)dxdy = 1 


—00 —0 


o 0 11, 211 
f f f(x, y)dxdy = f f$ + 2y)dxdy =£ f f (x + 2y)dxdy 
007 350 


—00 —00 


25, x? es 2,1 2Y 214 
=3JE7+2w ay =|G +20 = Ez +Y l =1 


b) Calcule la probabilidad que en alguna semana, el mantenimiento mecánico dure menos de 
15 minutos y el mantenimiento eléctrico dure más de 30 minutos 


1 1/4 
P(X<1/4, Y>1/2) = f f Ž (x+ 2y)dxdy = 13/96 
1/2 0 


8.3.3 DENSIDADES DE PROBABILIDAD MARGINAL 

Cuando se estudian más de una variable aleatoria en forma conjunta, puede ser de interés 
conocer la distribución de probabilidad de las variables aleatorias individualmente. Estas 
funciones se denominan densidades marginales 


Definiciones: 


Sean X,Y variables aleatorias continuas 
f(x,y) su función de densidad de probabilidad conjunta. 
Entonces, 


o 


g(x) = f f(x, y)dy Densidad de probabilidad marginal de X 


—0 


h(y) = f f(x, y)dx Densidad de probabilidad marginal de Y 


—0 


Para cada variable la densidad marginal se obtiene integrando la función de probabilidad sobre 
la otra variable. 


Las densidades marginales g(x), h(y) son funciones de probabilidad de X, Y en forma 
separada. Estas funciones deben cumplir las propiedades respectivas. 


1) 9g(x)>0,xeR,  —h(y)>0, yeR 


2) Jaegax=1, [hay=1 


Las densidades marginales pueden usarse para calcular probabilidad de cada variable. 
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Ejemplo. 
En el problema del mantenimiento de la máquina, 


a) Encuentre las densidades marginales 


96) = f 1oydy = [Zo 2ndy =D +y] = 00D, 


h(y) = | f(x,y)dx = 


—0 


b) Calcule P(0.25<X<0.75) 
0.75 0.75 


P(0.25<X<0.75)= f g(x)ax= f 2y + Mdx = 0.5 
0.25 0.25 3 


8.3.4 DENSIDADES DE PROBABILIDAD CONDICIONAL 

Cuando se estudian más de una variable aleatoria en forma conjunta, puede ser de interés 
conocer la distribución de probabilidad de cada variable aleatoria dado que la otra variable 
aleatoria toma un valor específico. Estas funciones se denominan densidades condicionales. 


Recordemos la fórmula de probabilidad condicional para eventos 
P(A|B) = P(A-”B)/P(B) 
Definamos los eventos A, B de la siguiente manera 
A: X=x 
B: Y=y 
Siendo X, Y variables aleatorias discretas con distribución de probabilidad conjunta f(x,y), 
Entonces, 
P(X = x, Y = y) 
P(Y =y) 
Que se puede expresar con la notación establecida para las distribuciones conjuntas: 


f(x, 
toy) = 6 
h(y) 
La función f(x]y) también satisface las propiedades de las funciones de probabilidad 


P(X=x|Y=y) = 


Definiciones 


Sean X,Y variables aleatorias continuas 
f(x, y) densidad de probabilidad conjunta 
Entonces, 


f(x,y) 
h(y) 
f(x,y) 
g(x) 


f(ly) = 


Es la densidad condicional de X dado que Y=y 


f(ylx) = Es la densidad condicional de Y dado que X=x 


Las densidades condicionales f(x|y), f(y|x) son funciones de probabilidad de X, Y. Estas 
funciones cumplen las propiedades establecidas y pueden usarse para calcular probabilidad 
condicional. 


1) f(xly) >0,xeR, f(ylx)>0, yeR 


2) [txIyox=1, [f(ylxJdy=1 
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Ejemplo. 
En el problema del mantenimiento de la máquina, 


a) Encuentre la densidad condicional f(y|x) 


2 +2y) 
fo = 60-37 ER osx yet 
g(x) £(x+D x+1 
3 


b) Calcule la probabilidad que el mantenimiento eléctrico Y dure menos de 15 minutos dado 
que el mantenimiento mecánico X duró 30 minutos 


0.25 0.25 0.5+2 
P(Y<0.25|X=0.5) = f f(y | 0.5)dy = f 6 a ay =0.125 
0 0 9 + 


8.3.5 VARIABLES ALEATORIAS CONTINUAS INDEPENDIENTES 
Definición 


Se dice que X, Y son variables aleatorias continuas estadísticamente 


independientes si y solo si f(x,y) = g(x) h(y) en el dominio de X, Y 


Demostración 


Sean X,Y variables aleatorias continuas y f(x,y) su densidad de probabilidad conjunta. 
La densidad condicional f(x|y) es: 


fiy = e 


Y la densidad marginal g(x) es: 


909) = f f(x, y)dy 
Sustituyendo la densidad condicional en la densidad marginal: 


00 


909 = | t(x] y)h(yJdy 


—0 


Supongamos que f(x|y) no depende de y. Esto significa que la expresión f(x]y) no contendría 
a la variable y. Por lo tanto, puede salir del integral: 


909) = f(xly) f h(y)dy 


Pero f h(y)dy = 1, pues h(y) es también una función de densidad de probabilidad . 


Entonces g(x) = f(x]y). 


Sustituyendo en la densidad condicional inicial se obtiene f(x,y) = g(x) h(y) 
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Ejemplo 
Sea [X, Y] un vector aleatorio bivariado cuya densidad de probabilidad conjunta es: 
f(x,y) = kxy, 0<x, y<1, cero para otro (x,y) 
a) Encuentre el valor de k para que sea una función de probabilidad 
El dominio: O<x,y<1 es equivalente a: O<x<1, 0<y<1 
` 1p1 
Se debe cumplir que f 5, kxydxdy = 1 
2 2 
1p1 Ca. KK pl oky a K E 
kf, f, kxydxdy = kj yi ody = shyy = 7h =7=1>k=4 


> f(x,y) = 4xy, 0<x,y <1, cero para otro (x,y) 


b) Calcule la probabilidad P(X < 0.5, Y > 0.75) 
1 
0.75 


1 


P(X < 0.5, Y > 0.75) = Le Te Axydxdy =4Í 


ydy = 0.1094 


2 

X^ 05 1 
295 dy = + 
yl" dy al 


c) Encuentre las densidades marginales 


2 
E ale -4x y -= 
909 = f ft y)dy =| 4xydy = 4x1 7h = 2x, 0<x<1 
haje iye A O 
(y) = f f&s y)dx =f 4xydx = 4yh =2y, 0<y< 


d) Determine si X, Y son variables aleatorias independientes 
Se debe cumplir que f(x,y) = f(x)f(y) para todo (x,y) 
f(x,y) = 4xy,  g(x)h(y) = (2x)(2y) = 4xy = f(x, y) => X, Y son independientes 


e) Encuentre las densidades condicionales 
f(x]y) = f(x,y)lf(y) = 4xy/2y=2x = g(x) Resultado previsto pues X,Y son independientes 
O<x<1 


f(yix) = f(x,y)/f09=4xy/2x=2y = h(y) Resultado previsto pues X,Y son independientes 
0<y<1 


Ejemplo 
Sea [X, Y] un vector aleatorio bivariado cuya densidad de probabilidad conjunta es: 
f(x,y) = kxy, 0<x<y<1, cero para otro (x,y) 


a) Encuentre el valor de k para que f(x, y) sea una función de probabilidad 
El dominio: 0<x<y<1 es equivalente a: 0<x<y, 0<y<1 


; ley 
Se debe cumplir que Í Ij kxydxdy = 1 
2 4 
1py eya KK pta, KK y E B 
MA kxydxdy =k/, vi dy => |, y dy => =1>k=8 
> f(x,y) =8xy, O<x<y<1, cero para otro (x,y) 


b) Encuentre las densidades marginales 


2 
f(x) = fito y)dy =| “axydy = ex E = Mx=xó) 0<x<1 


2 
f(y) = |) f(x, y)dx =f? 8xydx = eN = 4y?, 0O<y<1 
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c) Determine si X, Y son variables aleatorias independientes 
Se debe cumplir que f(x,y) = f(x)f(y) para todo (x,y) 


f(x,y) =8xy,  f(x)f(y) = 4(x - xĉ)(4y°) + 8xy => X, Y no son independientes 


c) Encuentre las densidades condicionales 


fly) = fxy)If(y) = 7 = - , 0<x<y<1, fíy)+0 


HYHA = fy = 2 PL, OS xy SL, 10940 


a) 1-x? 


8.4 CASO CONTINUO TRIVARIADO 


Las definiciones para distribuciones bivariadas pueden extenderse a más variables. 


El siguiente ejemplo es una referencia para revisar los conceptos relacionados 


Ejemplo 

Sea [X, Y, Z] un vector aleatorio trivariado cuya distribución de probabilidad conjunta es: 
f(x,y,z) = kx(y+z), 0<x<2, 0O<y<z<1, cero para otro (x,y,z) 

a) Encuentre el valor de k para que f(x, y, z) sea una función de probabilidad 


El dominio: 0<y<z<1 es equivalente a: 0<y <z, 0<z<1 


A 2p1pz 
Se debe cumplir que 5, f f kx(y + z)dydzdx = 1 
2 
2p1pz z 2 1pz 2 1-y 3 
k f i h kx(y + z)dydzdx = kf xfi f i (y + z)dydzdx xj; xfi IS + yz] dzdx 
2 2 
MES 3 ar? f1,Z 2 _ 3kp2 r1 2 
= kf xfi ES + yZ lp dzdx = kf xf, G + z^ )dzdx = ahb xf, z“dzdx 
3k p2 29, k p2 kx2 k4 
=a Jo ghd) EG Sal 
> f(x,y,z) = x(y+z), 0<x<2, 0O<y<z<1, cero para otro (x,y,z) 
b) Encuentre las distribuciones marginales univariadas 


2 
1pz 1pz 1 
f(x) = f p f x(y + z)dydz =x f à f (y + z)dydz xf, 5 + yz ]¿ dz 


3x Z 3x xX 
= = , 0O<x<2 
¿OS 


2 
o (4z 2 EZ 2 
=x/¿+2 daz == foz dz = 


2 
_ 1p2 _ 1 2 E 1 Xx. 
f(y) = f, f 5 x(y + z)dxdz =/, (y + 2, xdxdz sf, (y+ 25 Jo dz 

1 z? a 2 
=2/ (y+z)dz = 2[yz+ =} =1+42y-3y”, 0O<y<1 


2 
2 pz 2 z 2 
f(z) = E f x(y + z)dydx =f xX f i (y + z)dydx =f 1 + zy]ó dx 


2 
2 
-2f xz?dx = 327-322, 0<z<1 
2-0 2 2 
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b) Encuentre las distribuciones marginales bivariadas 


f(x, y) = J x(y + z)dz = x[ zi tay ay Asaya 
y) = J xY =XLy: zy XV +5 Y 273 y - Sy 
0<x<2, O<y<1 
f(x,z) = | x( + z)d q A EA 0<x<2, O<z<1 
, Jo y y= 2 Y lo = 2 E 2 , , 
2 x? 2 
f(y,z) = |, x(y + z)dx = (y +25 L = 2(y +2), 0<y<z<1 


c) Determine si X, Y, Z son variables aleatorias estadísticamente independientes 


f(x,y) = >+ 2y - 3y?) = f(x)f(y) => X, Y son independientes 


3xz? 
f(x,z) = E f(x)f(2) => X, Z son independientes 


f(y,z) = 2(y +2) 
f(yf(z) = (1+ 2y - 3y?)(3z?) + f(y,z) > Y, Z no son independientes 


d) Verifique que f(x) es una función de densidad de probabilidad 
2x 
02 
e) Verifique que f(x, z) es una función de densidad de probabilidad 
2 
X 2 


3x2? 3 3 : 1 1 
Ke > dzdx = So z izan ES [5 jp dx = ¿[xo = alal 


EJERCICIOS 
1) X1 y X2 tienen la función de densidad de probabilidad conjunta dada por 
KxX>, 0<x,<1 0<x, <1 
0, para otros puntos 
a) Calcule el valor de k que hace que f sea una función de densidad de probabilidad 
b) Calcule P(X1<0.75, X220.5) 


2) X, y X2 tienen la función de densidad de probabilidad conjunta dada por 
k(1-x,), 0<x,<X, <1 
taxa = 5 2) 1$ X2 
, para otros puntos 
a) Calcule el valor de k que hace que f sea una función de densidad de probabilidad 
b) Calcule P(X1<0.75, X2>0.5) 


3) Si la densidad de probabilidad conjunta de las variables aleatorias continuas X, Y 
está dada por 


1 
f(x,y) = qe + y), 0<x<1, O<y<2 
0, para otros valores 
a) Verifique que es una función de densidad de probabilidad 
b) Obtenga la densidad marginal de X 
c) Obtenga la densidad marginal de Y 
d) Obtenga la densidad condicional de X dado que Y=1 
e) Obtenga la densidad condicional de Y dado que X=1/4 
f) Determine si X, Y son variables aleatorias estadísticamente independientes 
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MATLAB 


Manejo simbólico de una distribución trivariada continua (comparar con el ejemplo) 


>> SymS X y Z Definición de variables simbólicas X, Y, Z 
>> f=x*(y+2); Función de densidad trivariada f(x,y,z) 
>> p=int(int(int(f,y,0,z),z,0,1), x,0,2) Verificar que f es función de densidad 
p= 
1 


>> p=int(int(int(f,y,0.1,0.4),z,0.5,0.8), x,1.2,1.8) Calcular P(0.1<Y<0,4, 0.5<Z<0.8,1.2<Z<1.8) 
p — 
729/10000 


>> fx=int(int(f,y,0,z),z,0,1) Densidad marginal f(x) 
fx= 
1/2*x 

>> fy=int(int(f,x,0,2),z,y,1) Densidad marginal f(y) 


2*y*(1-y)+1-yN2 
>> fy=expand(fy) Expansión algebraica 


2*y-3*yN2+1 
>> fz=int(int(f,y,0,z),x,0,2) Densidad marginal f(z) 
fz = 
3*z^2 
>> fxy=int(f,z,y,1) Densidad marginal f(x,y) 
fxy = 
x*y*(1-y)+1/2*x*(1-y12) 
>> fxy=expand(fxy) 
fxy = 
x*y-3/2*x*yN2+1/2*x 
>> fxz=int(f,y,0,z) Densidad marginal f(x,z) 
fxz = 
3/2*x*z^2 
>> fyz=int(f,x,0,2) Densidad marginal f(y,z) 
fyz = 
2*y+2*z 
>> r=expand(fxy)==expand(fx*fy) Verificar que X, Y son variables independientes 
r= 
1 
>> r=expand(fxz)==expand(fx*fz) Verificar que X, Z son variables independientes 
r= 
1 
>> r=expand(fyz)==expand(fy*fz) Verificar que Y, Z no son var. independientes 
r= 
0 
>> p=int(fx, 1.2, 1.8) Calcular la marginal P(1.2<X<1.8) 


p = 
9/20 
>> p=int(int(fxy, x, 1.2, 1.8),y,0.2, 0.8) Calcular la marginal P(1.2<X<1.8, 0.2<Y<0.8) 


p = 
783/2500 
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8.5 DISTRIBUCIÓN MULTINOMIAL 


Es una generalización de la distribución binomial. Se presenta cuando los resultados de cada 
ensayo tienen más de dos resultados posibles. Se supondrá que los ensayos son 
independientes y que la probabilidad se mantiene constante para cada tipo de resultado. 


Definición: Distribución multinomial 


Sean n: cantidad de ensayos realizados 
k: cantidad de resultados diferentes que se pueden obtener en cada ensayo 


Sean las variables aleatorias discretas: 
Xı: Cantidad de resultados de tipo 1 
X2: Cantidad de resultados de tipo 2 


Xx : Cantidad de resultados de tipo k 
Tales que X1+X2+...+Xx=N 


Sean las probabilidades correspondientes a cada tipo de resultado 
pı: Probabilidad que el resultado sea de tipo 1 
p2: Probabilidad que el resultado sea de tipo 2 


px: Probabilidad que el resultado sea de tipo k 
Tales que pı + p2+...+px=1 


Las variables aleatorias X4, X2, . . . Xx tienen distribución multinomial. 
Entonces, la distribución de probabilidad de X1, X2, . . . Xx está dada por la función: 


XimX xX KiK X 
td 00,)= A e Pk“ 
Xa Xira Xk XX LX! 


X1, X2, . - - , Xk = 0, 1, 2, ... N} Xı+tX2+... +X EN 


Demostración 
Siendo ensayos independientes, la probabilidad de tener x, resultados de tipo 1, x2 


n 
resultados de tipo 2, ..., Xx resultados de tipo k, es pz'p3*... pý“ . Pero existen ) 
Cr Xk 


formas diferentes de obtener estos resultados, por lo tanto, esta cantidad es un factor. 


8.5.1 MEDIA Y VARIANZA PARA LA DISTRIBUCIÓN MULTINOMIAL 
Se puede calcular la media y varianza de cada variable aleatoria considerando a las demás 
variables aleatorias como otra variable: 


Definición 


Sea X; cualquiera de las variables discretas de la distribución binomal 
Entonces 


Media de X; Hx, = E(X;) = np; 
Varianza de X; o°% = V(X;) =np¡(1-p;), 1=1,2,...,k 


Ejemplo 

Cada artículo producido por una fábrica puede ser aceptable, regular o defectuoso, con 
probabilidad 0.85, 0.10, y 0.05 respectivamente. Si se toman 5 artículos para examinarlos, 
calcule la probabilidad que 4 sean aceptables, 1 sea regular y ninguno defectuoso 
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Es un experimento multinomial con 
Cantidad de artículos tomados para examinar 
Cantidad de artículos aceptables 
Cantidad de artículos regulares 
Cantidad de artículos defectuosos 
Probabilidad que un artículo sea aceptable 
Probabilidad que un artículo sea regular 
Probabilidad que un artículo sea defectuoso 
La distribución de probabilidad para este experimento es: 


taana) =| x x) 
1152153 


X1, X2, X3 = 0, 1, 2, 4, 5; X1+X2+X3=5 


3 


Entonces 
5! 


y J0-85%0.10f0.05° = — = 0.8540.10°0.05° 


5 
P(X,=4, Xo2=1, X3=0) = f(4,1,0) = , 1 41110 


= 0.261 


NOTA. Este problema puede reducirse a dos variables definiendo X= 5 - X, - X2 mientras 
que p3=1- (pı + p2) con lo cual, la distribución de probabilidad es: 


f(4,X2) = 


Xı, X2 = 0, 1, 2, 4, 5; Xı+ X2 <5; X3= 5- X1- X2 


Xp% (1-p, -p. JA 
XL X2, M p> (1- p1 - P2) 


8.6 DISTRIBUCIÓN HIPERGEOMÉTRICA MULTIVARIADA 


Esta distribución es una generalización de la distribución hipergeométrica. Se aplica a 
experimentos de muestreo sin reemplazo de una población finita en la que hay objetos de 
más de dos tipos diferentes. Esto implica que los objetos tomados no son devueltos a la 
población. Por lo tanto la cantidad de objetos en el conjunto cambia. 


Definición: Distribución hipergeométrica multivariada 


Sean N: Cantidad de objetos en un conjunto en el que existen k diferentes tipos. 
Cı: Cantidad de objetos de tipo 1 en el conjunto 
C2: Cantidad de objetos de tipo 2 en el conjunto 


Cx: Cantidad de objetos de tipo k en el conjunto 
Tales que Cı + C2 +... +Ck=N 


Sea n Cantidad de objetos que se han tomado en la muestra 
Sean las variables aleatorias discretas: 

Xı: Cantidad de objetos de tipo 1 

X2: Cantidad de objetos de tipo 2 


Xx: Cantidad de objetos de tipo k 
Tales que X+ Xz+... +X; =N 


Entonces, la distribución de probabilidad de X1, X2, . . . Xx está dada por la función: 
Cı C, Ck 
Xa jJ x2) — (Xk 


X1, X2, . - . Xk = 0, 1, ..., N} X1 +X2+... +X =n; C+Co+...+Ci=N 


f(X1:X2;-; Xk) = 


156 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


Demostración 


Se tienen p 3 formas diferentes de tomar x, objetos de tipo 1 de los C, disponibles 


Se tienen F l formas diferentes de tomar x2 objetos de tipo 2 de los C} disponibles 


Se tienen f ) formas diferentes de tomar xx objetos de tipo k de los C, disponibles 


Además hay f ) formas diferentes de tomar n objetos de los N existentes en la población 


La fórmula se obtiene aplicando el principio fundamental del conteo y la asignacíón clásica 
de probabilidad 


Ejemplo 
Una caja contiene 4 baterías en buen estado, 3 baterías en regular estado, y 2 baterías 
defectuosas. De esta caja se toma una muestra aleatoria de dos baterías. 


a) Encuentre la distribución de probabilidad conjunta. 
Sean las variables aleatorias discretas 
X: Cantidad de baterías aceptables en la muestra 
Y: Cantidad de baterías en regular estado en la muestra 
Z: Cantidad de baterías defectuosas en la muestra. 


Es un experimento hipergeométrico. Entonces, la distribución de probabilidad conjunta es 
P(X=x, Y=y, Z=z2) = f(x,y,z) =% Y , X, y, z= 0,1,2; x+y+z=2 


b) Calcule la probabilidad de obtener una en buen estado y una defectuosa 


Gl) 
P(X=1, Y=0, Z=1) = f(1,0,1) = SITAZ = 0.2222 


2 


NOTA. Este problema puede reducirse a dos variables definiendo Z=2- X- Y 
Con esta sustitución, la distribución de probabilidad es: 


OHTA 
P(xex, Y=y) = fogy) = YAZ -XTY x, y=0,1,2; x+y <2 


G 


c) Calcule la probabilidad de obtener una en buen estado y una defectuosa 


Wlol=-:-0 
P(X=1, Y=0) = f(1,0) = En ZI = 0.2222 


2 


d) Calcule P(X=0) 
La probabilidad de una variable es la distribución marginal 


P(X=0) = g(0) = y f(0, y) =f(0,0)+f(0,1)+f(0,2) = 0.2778 
y=0 
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e) Obtenga una fórmula para la distribución marginal g(x) 
Separamos las variables en dos grupos: X y las demás: 2- x 


al ) 
Xx) 2-x 
2, X=0, 1,2 
9 
f) Calcule P(X=0) con la distribución marginal g(x) 


(oleo) 
P(X=0) = g(0) = w/2-0) = 0.2778 


G 


g(x) = 


g) Encuentre la distribución condicional de X dado que Y = 1 
f(x|1) = f(x,1)/h(1) 
2 


h(1) = Y f(x, =f(0,1)+f(1,1)+f(2,1) = 0.5 
x=0 
f(xJ1) = a 


h) Calcule la probabilidad que al tomar la segunda batería, ésta sea aceptable dado que la 
primera fue una batería en estado regular Y = 1 
P(X=1|Y=1) = f(11) _ 0.3333 
0.5 0.5 


=0.6667 


EJERCICIOS 


1) El una ciudad, 60% de los empleados viaja a su trabajo en bus, 25% lo hace en su auto, 
10% usa bicicleta y 5% camina. Encuentre la probabilidad que en una muestra de 8 
empleados, 5 usen bus, 2 usen su auto, 1 camine y ninguno use bicicleta. 


2) De acuerdo con la teoría de la genética, un cierto cruce de conejillos de indias resultara en 
una descendencia roja, negra y blanca en la relación 8:4:4. Encuentre la probabilidad de que 
de 10 descendientes, 6 sean rojos, 3 negros y 1 blanco. 


3) Un frasco contiene 25 pastillas de igual forma y color. 15 son laxantes, siete son 
calmantes y tres son vitaminas. Si se eligen al azar cinco de estas pastillas, calcule la 
probabilidad de obtener 


a) Cuatro laxantes y un calmante 
b) Dos laxantes, un calmante y dos vitaminas. 


4) Un club de estudiantes tiene en su lista a 3 serranos, 2 amazónicos, 5 costeños y 2 
insulares. Si se selecciona aleatoriamente un comité de 4 estudiantes encuentre la 
probabilidad de que: 


a) Estén representadas todas las regiones del país. 
b) Estén representadas todas las nacionalidades excepto la amazonía. 
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8.7 MEDIA PARA VARIABLES ALEATORIAS CONJUNTAS 
BIVARIADAS 


Definición 


Sean X,Y variables aleatorias discretas (o continuas) 
f(x, y) distribución (o densidad) de probabilidad conjunta 


Sea  G(X,Y), alguna expresión con X, Y. 


Si X, Y son variables aleatorias discretas 
La media o valor esperado de G(X,Y), se define 


Hc(x,Y) 7 E[G(X, Y)] = SY G(x, y)f(x, y) 
x Y 


Si X, Y son variables aleatorias continuas 
La media o valor esperado de G(X,Y), se define 


uey) = E[G(X,Y)] = | f G(x, y)f(x,y)dxdy 


—00 —00 


Ejemplo 
Sean X, Y variables aleatorias discretas cuya función de distribución de probabilidad conjunta 


es (y =$ xy, x=1, 2,3; y=1,2 


Calcule la media de la suma X + Y 


G(X,Y) = X+Y; 
3 


3 2 2 
E[G(X,Y)] -E(X Y) = Y try = 250 (x+y)y 
x=1y=1 18 18 x=1 y=1 


=p M+ (x+ 2)2]=L112+6)+2(3+8)+3(4+10)]=4 
x=1 


Ejemplo 
Sean X, Y variables aleatorias continuas cuya función de densidad de probabilidad conjunta es 


Ixy) = Z0x+2y),0<x ys 1 


Calcule la media de la suma X + Y: 


G(X Y) = X+Y 


11 11 
E[G(X,Y)] = E(X + Y) = Í [ (x + y)f(x,y)dxdy = Í f (x+ yoo + 2y)dxdy = 7/6 
00 00 
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8.7.1 CASOS ESPECIALES 


Definición 


Sean X,Y Variables aleatorias discretas (o continuas) 
f(x, y) Distribución (o densidad) de probabilidad conjunta 
g(x), h(y) Distribuciones (o densidades) marginales de X y Y respectivamente 


Si X, Y son variables aleatorias discretas 
Si G(X,Y) = X, entonces su media es 


ux =E(X) = $ 2 xf(x,y) = Y 0 f(x,y) = Dx g(x) 
xX Y x x 
Si G(X,Y) = Y, entonces su meda es 


y =E(Y) = Y) yf(x,y) = $y} f(x,y) = > y h(y) 
x Y y x y 


Si X, Y son variables aleatorias continuas 
Si G(X,Y) = X, entonces su media es 


ux =E(X) = Í x g(x)dx 


Si G(X,Y) = Y, entonces su media es 


uy =E(Y)= Í y h(y)dy 


-0 


8.8 COVARIANZA PARA VARIABLES ALEATORIAS 
CONJUNTAS BIVARIADAS 


La definición de varianza se extiende a variables aleatorias conjuntas y se denomina 
covarianza. Es una medida de la dispersión combinada de ambas variables. 


Definición: Covarianza 


Sean X, Y variables aleatorias discretas con distribución conjunta f(x,y) 
Entonces, la covarianza de X, Y es 


oxy = Cov(X, Y) = E[(X — MY — uy)] = YY (A MY — uy )f(x, y) 
x y 


Sean X, Y variables aleatorias continuas con densidad conjunta f(x, y) 
Entonces, la covarianza de X, Y es 


oxy = Cov(X, Y) = E[(X— 1 (Y —1y)]= $ f (x -moy — uy)f(x, y)dxdy 


—00 —00 


La siguiente fórmula es equivalente a la anterior y es de uso común para calcular la covarianza: 


Definición: Fórmula alterna para la covarianza 


Oxy = Cov(X, Y) = E(XY) -uxHuy para variables aleatorias discretas o continuas 


Demostración 

Cov(X,Y) = Ef[(X-ux)(Y-uv)] = E[XY — Xpy — Yux + uxu] 
= E(XY) — uvE(X) — uxE(Y) + xuy 
= E(XY) — uvux — xuy + uxuy = E(XY) — uxuy 


Si X = Y, la covarianza se reduce a la varianza 


o% = V(X) = E[(X-px )’] = E(X?) — ux 
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Ejemplo 
Sean X, Y variables aleatorias discretas cuya función de distribución de probabilidad conjunta 


es (y) = xy, x=1,2,3; y=1,2 


Encuentre la covarianza entre X, Y 


Para usar la fórmula de la covarianza: oxy = Cov(X,Y) = E(XY) — uxuy 


Se necesitan las E marginales 


E x x _ 
ai= 2,0% y) = Za” S85 x=1,2,3 


h(y) = fc y)= Ly > ¡5 (1+2+3)=2, y=1,2 


x11 183 


Entonces 


3 3 _1 3 7 
Hx =E(X)= $ xg) = 2 -Yx = -i4243 


x=1 


hy =E) = X yhty) = fvt- $y- = irz) 


Además 
1 1 


E(XY) = NU IDAS ET 


x=1 y=1 x=1 y=1 


z 2142 2 1 2 2 2 _70 
Èx [P+2%]=¿1P(5)+2*(5)+3%(5)] = 3 


Sustituyendo 
Oxy = Cov(X,Y) = E(XY) — uxuy = 70/18 -— (7/3)(5/3) = 


Ejemplo 
Sean X, Y variables aleatorias continuas cuya función de densidad de probabilidad conjunta es 


f(x,y) = Žx+2y) 05% y 51 


Encuentre la covarianza entre X, Y 


Para usar la fórmula de la covarianza: ©xy = Cov(X,Y) = E(XY) — xuy 


Se necesitan las distribuciones marginales 
1 


1 
g(x) = f (x+ 2y)dy = $+, hly) = [Ž(x + 2y)dx = (1+ 4y) 
0 03 


Entonces 


1 1 2 5 
ux = E(X) = f xg(x)dx = pe +1 dx => 
3 2.3 9 


1 1 
1 11 
=E(Y) = Í yh(y)dy = [y 4(1+ 4y)dy = — 
Hy (Y) = [yndy = fyz l1 + 4y)dy = 75 


Además 
11 11 2 4 
E(XY) = f f xyf(x, y)dxdy = ES Ux + 2y)dxdy = — 
00 00 3 3 


Sustituyendo 


oxy = Cov(X,Y) = E(XY) — uxpy = 1/3 — (5/9)(11/18) = -1/162 
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8.8.1 SIGNOS DE LA COVARIANZA 


La covarianza es una medida del nivel de relación entre las variables aleatorias X, Y. 
La covarianza tiene significado si la relación entre las variables aleatorias es lineal. 


a) Si valores grandes de X están asociados probabilísticamente con valores grandes de Y, o 
si valores pequeños de X están asociados probabilisticamente con valores pequeños de Y 
entonces la covarianza tiene signo positivo. 


b) Si valores grandes de X están asociados probabilisticamente con valores pequeños de Y, o 
si valores pequeños de X están asociados probabilisticamente con valores grandes de Y 
entonces la covarianza tiene signo negativo. 


Para entender este comportamiento debemos referirnos a la definición de covarianza: 
Cov(X, Y) = E[(X - ux (Y — 19] = YY (A ux)(y — JE (A y) 
x y 


Si los valores de X y Y son ambos mayores o ambos menores con respecto a su media, el 
producto de las diferencias (X — ux (y — uy ) tendrá signo positivo. Si estos términos tienen 


mayor peso de probabilidad entonces la suma tendrá signo positivo. En los casos contrarios la 
suma tendrá signo negativo. 


Esta relación se puede visualizar como la pendiente de una recta que relaciona X y Y. 


c) Si X, Y son variables aleatorias estadísticamente independientes, entonces Cov[X,Y]=0 


Demostración 


Si X, Y son variables aleatorias estadísticamente independientes, se tiene que 
f(x,y) = g(x) h(y). 
Esto permite separar las sumatorias: 
E(XY) = Y» xyf( y) = $} xyg(x)h(y) = )/xg(x)), yh(y) = E(X) E(Y) 
Este resultado se Se enla emula de la ies f 
Cov(X,Y) = E(XY) — xuy = E(X)E(Y) - xy = xy — xuy = 0 
NOTA: 


Si Cov(X,Y) = 0 esto no implica necesariamente que X, Y sean variables aleatorias 
independientes. 
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Ejemplo 
Sean X, Y variables aleatorias discretas cuya función de distribución de probabilidad conjunta 


es f(x,y) siy, x=1, 2, 3; y=1, 2. 


Demuestre con la propiedad anterior que Cov[X,Y] = 0 


Solución 
Se obtuvieron previamente las distribuciones marginales 


g(x)= Y f(x y)=2, x=1,2,3 
y 


x 
6 
= _Y = 
h(y) = 210% y)=>3> y=1,2 
Xx 
Se tiene que 


f(x,y) Y x=1,2,3; y=1, 2. 


x,y 1 
x)h(y) = (D(%) =— xy, x=1, 2, 3; y=1, 2. 
g(x)h(y) E 18 Y y 
Se cumple que 
f(x,y) = 909h(y), x=1, 2,3; y=1, 2. 
Por lo tanto, X, Y son variables aleatorias estadísticamente independientes. En consecuencia 


Cov(X,Y)=0 


Ejemplo 
Sean X, Y variables aleatorias continuas cuya función de densidad de probabilidad conjunta es 


f(x,y) = S0c+2y), 05% y 51 


Demuestre con la propiedad anterior que Cov[X,Y] = 0 


Solución 
Se obtuvieron previamente las distribuciones marginales 


1 
g(x) = f (x+ 2y)dy = $+, 
0 


+2 1 
h(y) = [30 +2y)dx = (1+4y) 
0 


Se tiene que 


f(x,y) = Žx=+2y) 0<% y<1 


2 1 2 
g(x)h(y) = 37 + yz + 4y) = ge + 1)(1+ 4y) 
Se tiene que 
f(x,y) = g(x)h(y), 
Por lo tanto, X, Y son variables aleatorias no estadísticamente independientes. 


En consecuencia 


Cov(X,Y) + 0 
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8.8.2 MATRIZ DE VARIANZAS Y COVARIANZAS 


Es una representación ordenada de las varianzas y covarianzas entre las variables aleatorias. 
Definición 


Sean X y Y variables aleatorias conjuntas (discretas o continuas) 
o% =V(X), 0% =V(Y) Varianzas 


Oxy = Oyx = Cov(X, Y) = Cov(Y, X) Covarianzas 


Entonces la matriz de varianzas y covarianzas es 


ox 


[oxy] = 2 
Oyx Oy 


Esta matriz es simétrica y contiene en la diagonal las varianzas de cada variable. Los otros 
componentes son las covarianzas entre las dos variables: Oxy = Oyx 


Ejemplo 
Sean X, Y variables aleatorias discretas cuya función de distribución de probabilidad conjunta 
es f(x,y) Y x=1,2,3; y=1,2 


Encuentre la matriz de varianzas y covarianzas 


Se obtuvieron previamente las distribuciones marginales 


g(x)= Y f(y)=2, x=1,2,3; 
y 


x 
6 
a 
h(y) = 210, y) => 


Medias, varianzas y covarianzas 


E(X) = 2 xg(x) = 


y=1,2 


E(Y) = y yh(y) = 


-i 


E) =X g(x) = ye; $ x = = PAP 43?) = 6 


EY?) = È yny) = H 1- yy Eras 


E(XY) = E(YX) = =y 2 y as 


mar 1 
g(x) h(y) = Š (3 Y) = Y = f(x,y), x=1,2,3; y=1,2 

> X, Y son e aleatorias independiente > Oxy = Cov(X, Y) = 
0% = V(X) = E(X) - E?(X) = 6 — (7/3)? = 5/9 
0% = V(Y) = E(Y?) - EY) = 3 — (5/3)? = 2/9 


Matriz de varianzas - covarianzas 


E ox Oxy _[5/9 0 
NI Jay oè 0 2/9 
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8.8.3 COEFICIENTE DE CORRELACIÓN LINEAL 


Es una medida normalizada de la relación lineal entre dos variables aleatorias. Se puede 
demostrar que el coeficiente de correlación reduce el rango de la covarianza al intervalo [-1, 1] 


Definición 


Sean X, Y variables aleatorias conjuntas (discretas o continuas) 


entonces, el coeficiente de correlación lineal de X, Y es: 
Cov(X, Y) Oxy 


=1< pxy <1 


8.8.4 MATRIZ DE CORRELACIÓN 


Es una representación ordenada de los valores de correlación entre las variables aleatorias. 
Definición 
Sean X y Y variables aleatorias conjuntas (discretas o continuas) 


Entonces la matriz de correlación es 
1 
[Pxy] = 


Pyx 
Esta matriz es simétrica y contiene el valor 1 en la diagonal. Los otros componentes son 
valores de correlación entre las dos variables: Pxy = Pyx 


Las definiciones anteriores pueden extenderse a más variables aleatorias conjuntas 
Definiciones 


Sean: Xi, X2, .. . Xk Variables aleatorias conjuntas (discretas o continuas) 
Oi = V(X;) Varianza de la variable X; 
oj = Cov(X;, X;) Covarianza de las variables X;, Xj 


Pij Coeficiente de correlación lineal entre las variables X;, Xj 


Matriz de varianzas-covarianzas 


0191 O42 - - Ok 


O24 O22 - - 2 


Ok4 ka 


Matriz de correlación 


1 2 


Pa 1 


CA z 


Pk1 


165 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


8.9 MEDIA Y VARIANZA PARA VARIABLES ALEATORIAS 
CONJUNTAS TRIVARIADAS 


Las definiciones para distribuciones bivariadas pueden extenderse a más variables. 
Los siguientes ejemplos son referencias 
Ejemplo con variables discretas 


Sea V un vector aleatorio discreto cuyos componentes son las variables aleatorias 
X, Y, Z, con distribución de probabilidad conjunta 


1 

——X z);x =1,2,3; 3,4;z =1,2 
f(x,y,z) = 4112 1-2) de 
0; para el resto de x,y,z 


Encuentre la matriz de varianzas y covarianzas y la matriz de correlación 


Distribuciones marginales (se a si entendido el dominio de Cada una) 


f(x) = 2,2 f06y,2) = Doa” v-a- ESS- 


y=3 z=1 y=3 z=1 


22% 1 E 4 14 
f(y) = Zanz" (y - 2-92 IN 


=X” “(y- 2-2 A- 2)= 50 22 +7) 


x=1 y=3 


106) = Df y2)= De 2)= È- 2na- 3) 


az= Sty E pea exo T 


f(y,z) = 10, y,z) = Daz” ?(y- 2)=3(0- Y x= Y z) 


f(x,y) = 10 f(y) => X, Y son variables aleatorias independientes 
f(x,z) = f(x) f(z) > X, Z son variables aleatorias independientes 
f(y,z) + f(y) f(z) > Y,Z son variables aleatorias no independientes 


Medias, hdd y ddr 


E(X) = È xto) - 


8 
E(X?) = Leto- E m” = 


4 
E(Y) = Lviv- Lra- 3)= AS 
y=3 


, 14 
2y-3 
112 4Y-3= T 


mr 


E(Y?) = y y*f(y) = y y AÈ y? (2y - 3) = 
y=3 y=3 


E(Z) = Y zz) = o 7) = Dam! a 
27 qa 112 1127 a 


A 7) = 


112 Air PS 


E(Z?) = Y 2fiz) = yz 
z=1 z=1 


4 2 22 
E(YZ) = }, > (yz)f(y,z) = => 2, 2 Y2ly=z)= a 


y=3z=1 y=3 x=1 
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2 2 2 784 288, 
= V(X) = E(X*) - E4 (X) = —--(—)" = 83/196 
DEVNS ER -E M= ma 
A A EY 
11 Pa 
2 2 2 2 
= V(Z) = E(Z*) -E z- 24 2a 
oz = V(Z) =E(2*) -E° (Z) G ) Gå 
Oxy = Oyx = Cov(XY) =0 Por ser variables aleatorias independientes 
Oxz = Ozx = Cov(XZ) = 0 Por ser variables aleatorias independientes 
560 2911 1 


ovz = ozy = Cov(YZ) =E(YZ)-E(Y)E(Z) = 7725 g g4 


Matriz de varianzas y covarianzas 
o% xy oxz| [83/196 0 0 
[oj]=] ovx o% oyz|=| 0 15/64 1/64 
Ox ozy 0 0 1/64 15/64 


Coeficientes de correlación 
R A Oxy 


a Oxz 
Pxz = NXZ) E oxOy => 

Cov(Y,Z)  0y 1/64 1 
PYZ MIMAJVIZ) ovoz V15/64/15/64 15 


Matriz de correlación 
1 Pxy Pxz 1 0 0 
Ipijl=|prx 1 pyz|=|0 1 1/15 
Pzx Pzy 1 0 1/15 1 


Ejemplo con variables continuas 


Sea [X, Y, Z] un vector aleatorio trivariado cuya distribución de probabilidad conjunta es: 
f(x,y,z) = x(y+z), 0<x<2, 0<y<z<1, cero para otro (x,y,z) 


Encuentre la matriz de varianzas y covarianzas 
Distribuciones marginales 
2 
1ez 1pz 1 
f(x) = f f x(y + z)dydz =/, f (y + z)dydz =/, 5 + yz ]5 dz 


Apia 3x z? 3x, 1, x 
z — dz = — dz ==, 0<x<2 
E +z*)dz 2 agigi 23 2 i 


2 
f(y) = f k x(y + z)dxdz 0 + 18 xdxdz =f'(y + 25 dz 


2 
1 z 
=2/ (y+z)dz = 21yz +31, =1+2y-3y?,  0<y<1 


2 pz 2 pz 2 y? B 
f(z) = f f x(y + z)dydx xf (y + z)dydx =f ari + zy lp dx 


-j xz*d i =32?, 0<z<1 
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yx 
2 2 
0<x<2, O<y<1 


2 
1 Zz 1 
f(x,y) = f «(y +z)dz = x[yz+ =} =x(y+>3-y? - (1+2y-3y°) 


2 2 2 

f(x,z) = [¿x(y +z)dy = 15 + zyĀ = xÓ 2-2 , O<x<2, 0<z<1 
2 x? 2 

f(y,z) = |, x(y +z)dx = (y+ zi> = 2(y +2), 0<y<z<1 


f(x, y) = 50 +2y- 3y?) = f(x)f(y) => X, Y son independientes 


3xz? 
f(x,z) = ÓN f(x)f(z) => X, Z son independientes 


f(y,z) = 2(y +2) 
f(y)f(z) = (1+ 2y - 3y?)(3z?) + f(y, z) > Y, Z no son independientes 


Medias, varianzas y covarianzas 
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E(X) = f xf(x)dx = f? x(5)dx == 


2 2 x 
E(X) = [fox = |, x dx =2 
E(Y) = Ji yf(y)dy = fi y1 +2y-3y?)dy = 
E(Y?) = [¿y?nyray = fj y? (1+ 2y- 3y?)dy => 
3 


E(Z) = f; zf(z)dz = |‘ z(3z°)dz =Ž 


E(Z?) = f; zF (2)dz = f‘ z?(3z?)dz = 


1 1 yz y 
E(YZ) = Í IN yz(2(y + z))dydz = 2f [0 + yz? )dydz = 2/, 27 + Xz’ idz 


= Žf'ztdz =1/3 
3 0 


0% = V(X) = E(X?) - E? (X) = 2- (4/3)? =2/9 
o% = V(Y) = E(Y?) -E?(Y) = 7130 - (5/12)? = 43/720 
0% = V(Z) = E(Z?) - E? (Z) = 3/5- (3/4)? = 3/80 


Oxy = Cov(XY) = 0 Por ser variables aleatorias independientes 
Oxz = Cov(XZ) = 0 Por ser variables aleatorias independientes 
Syz = Cov(Y,Z) = E(YZ) - E(Y)E(Z) = 1/3-(5/12)(3/4) = 1/48 


ox Oxy Oxz 2/9 0 0 
[oy]=|0yx 0% oyz|=| 0 43/720 1/48 


om ozy oĉ | | 0 1/48 3/80 
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EJERCICIOS 


1) Si la distribución de probabilidad conjunta de las variables aleatorias discretas X, Y 
está dada por 


(x.y) = + y) /x=0,1,2,3; y=0,1,2 


Encuentre la matriz de varianzas y covarianzas 


2) Si la distribución de probabilidad conjunta de las variables aleatorias discretas X, Y 
está dada por 
1 
—(2x + y), 0<x<1, O<y<1 
f(x, y) = q ex +y) y 
0, para otros valores 
Encuentre la matriz de correlación 


MATLAB 


Manejo simbólico estadístico de media y varianza (Comparar con el ejemplo) 
Variables aleatorias discretas 


>> Syms xX y Definición de variables simbólicas 
>> f=x*y/18; Distribución de probabilidad conjunta (discreta) 
>> g=0; Obtención de la distribución marginal g(x) 
>> for y=1:2 

g=g+eval(subs(f,'y',y)); 

end 

>> y 

1/6*x 
>> Syms X y 
>> h=0; Obtención de la distribución marginal h(y) 
>> for x=1:3 

h=h+eval(subs(f,'x',x)); 


Obtención de E(X) 
>> for x=1:3 
EX=EX+eval(x*g); 
end 
>> EX 
EX = 
713 
>> EY=0; Obtención de E(Y) 
>> for y=1:2 
EY=EY+eval(y*h); 
end 
>> EY 
EY = 
5/3 
>> EX2=0; Obtención de E(X 
>> for x=1:3 
EX2=EX2+eval(x^2*g); 
end 
>> EX2 
EX2 = 
6 
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>> EY2=0; 
>> for y=1:2 
EY2=EY2+eval(y*2*h); 
end 
>> EY2 
EY2= 
3 
>> EXY=0; 
>> for x=1:3 
for y=1:2 
EXY=EXY+eval(x*y*f); 


>> sigma2X=EX2-EX"2 
sigma2X = 
5/9 
>> sigma2Y=EY2-EY*2 
sigma2Y = 
2/9 
>> CovXY=EXY-EX*EY 
CovXY = 
8.8818e-016 


Variables aleatorias continuas 


>> SymMS xX y 
>> f=2/3*(x + 2*y); 


>> g=int(f,y,0,1) 
213*x+213 
>> h=int(f,x,0,1) 
h= 
1/3+4/3*y 
>> EX=int(x*g,0,1) 
EX = 
5/9 
>> EY=int(y*h,0,1) 
EY = 
11/18 
>> EXY=int(int(x*y*f,x,0,1),y,0,1) 


>> CovXY=EXY-EX*EY 
CovXY = 
-1/162 
>> r=expand(f)==expand(g*h) 
r= 
0 
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Obtención de E(Y?) 


Obtención de E(XY) 


Varianza de X 


Varianza de Y 


Covarianza de X, Y 


El resultado es aproximadamente cero 


Definición de variables simbólicas 
Función de densidad conjunta f(x,y) 
Densidad marginal g(x) 

Densidad marginal h(y) 

Obtención de E(X) 

Obtención de E(Y) 

Obtención de E(XY) 

Covarianza de X,Y 


X, Y no son independientes 
Verificar que f(x,y) = g(x) h(y) 


No es verdad 
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8.10 PROPIEDADES DE LAS VARIABLES ALEATORIAS 
CONJUNTAS 


En esta sección se establecen algunas propiedades útiles que serán usadas posteriormente en 
el tema principal de esta unidad que es el estudio de las distribuciones de muestreo. 


PROPIEDAD 1 
Sean Xi, Xə variables aleatorias (discretas o continuas) 
a, a E R 
Y = a, Xı + az X, variable aleatoria que incluye a las variables Xy y X2 


Entonces la media, o valor esperado de la variable Y es 
uy = E(Y) =E(a, X, + az X2) = as E(X;) + az E(X2) = as Hx, + alx, 


Esta definición se puede extender a expresiones con más variables aleatorias: 


Sea Y = aı Xı + a2 X2 +... + anXn, (Xi: variables aleatorias) 


Entonces Hy = Ay Hx, +a2 Hy, +-+ an Hx, 


PROPIEDAD 2 
Sean Xı, Xə variables aleatorias (discretas o continuas) 
ar, az e R 
Y = a, Xı + az X2, variable aleatoria definida con las variables X, y X2 


Entonces la varianza de la variable aleatoria Y es 
0% = V(Y) = a?, V(X1) + a°- V(X2) + 2 a, az Cov(X; X2) 


Si X1, X2 son variables aleatorias estadísticamente independientes 
Cov(X,X>) = 0 


Entonces 
2 _.2 2 Z2 2 2 2 
o y = a, V(X1) + a”2 V(X2) = ai Ox, +92 ox, 


Demostración 
V(Y) = Vía X1 + az X2) = El(as Xı + az X2)°] - E (ar X1 + a2 Xə) 
= Ela, Xĉ, + 2 a; a2 X1 X2 + a’ X’3) — [a1 E(X1) + az E(X2)]? 
= a E(X) + 2 a as E(X X2) + a’, E(X’, = a, EX) - 2 a, a2 E(X1)E(X2) - a? E2pé,) 
= a E(X“1) Bo 1 E(X1) + a, E(X2) — af2 EX”) + 2 a, a2 E(X: X2) — 2 as az E(X1)E(X2) 
= a V(X1) + a2 V(X2) + 2 a a2 Cov(X1 X2) 


Esta propiedad se puede extender a expresiones con más variables aleatorias: 


Sea Y = a Xı + a2 X2 +... +anXn, (Xi: variables aleatorias independientes) 
2 2 


2 = gl 2 2,2 
Entonces Oy = A] Ox, +92 0x, +- +4, Oxn 
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PROPIEDAD 3 
Sean X, X2 variables aleatorias (discretas o continuas) 
ar, az e R 
Y = a, Xı + az X2, una variable aleatoria definida con X1 y X2 


Entonces la función generadora de momentos de la variable aleatoria Y es 
my(t) = Ma, x(t) Ma, X, (t) 


Demostración 
my(t) = E(e*) = Eje% X, +a, X2)t7 = E(e* Xit ga, Xt) 


Si X1, X2 son variables aleatorias estadísticamente independientes 
E(e* Xt ga Xt) 2 E(e* Xt) E(e* Xt) 


Por lo tanto 
my(t) = Ma, x (t) Ma, X2 (t) 


Esta propiedad se puede extender a expresiones con más variables aleatorias: 


Sea Y = a, Xı + a2 X2 + ... + anXn, (Xi: variables aleatorias independientes) 


Entonces my(t) = Ma, x, (t) Ma, x, (t) ... Ma, x, (t) 
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9 DISTRIBUCIONES DE MUESTREO 


Este capítulo se inicia con algunas definiciones y términos relacionados con el estudio de la 
Estadística Inferencial que constituye el componente más importante de la Estadística 


Una inferencia estadística es una afirmación que se hace acerca de algún parámetro de la 
población utilizando la información contenida en una muestra tomada de esta población. 


Debemos aceptar que por la naturaleza aleatoria de los datos obtenidos en la muestra, hay un 
riesgo en la certeza de la afirmación propuesta, y es necesario establecer una medida para 
determinar la magnitud de este riesgo. 


Supongamos una población de tamaño N de la cual se toma una muestra de tamaño n, 
obteniéndose los siguientes resultados: X1, X2, ».., Xn 


N 


Los n resultados obtenidos Xı, X2, ..., Xn son algunos de los posibles valores que se extraen de 
la población cada vez que se toma una muestra de tamaño n. Por lo tanto, podemos 
representarlos mediante n variables aleatorias: X1, X2, ..., Xn 


Definición 
Muestra aleatoria: es el conjunto de n variables aleatorias X4, X3, ..., X, tales que sean 


independientes y provengan de la misma población, es decir que tengan la misma función 
de probabilidad. 


Para que esta definición sea válida, N debe ser muy grande, o el muestreo debe realizarse con 
reemplazo. Adicionalmente, cada elemento de la población debe tener la misma probabilidad de 
ser elegido. 

Definiciones 


Parámetro: es una medida estadística poblacional, cuyo valor es de interés conocer 
Por ejemplo, la media poblacional y 


Estadístico o estimador: es una variable aleatoria definida con las variables de la muestra 


aleatoria. Por ejemplo, la media muestral X 


Distribución de muestreo de un Estadístico: Es la distribución de probabilidad del 
estadístico 
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9.1 DISTRIBUCIÓN DE MUESTREO DE LA MEDIA MUESTRAL 


En esta sección se estudian las propiedades de la distribución de probabilidad de la media 
muestral 


Definición 


: sz i : 2 
Sean X4, X2, ..., Xn una muestra aleatoria tomada de una población con media u y varianza O”, 
entonces, la media muestral es una variable aleatoria que se define con la siguiente fórmula: 


Demostración 

y = 1g 1 1 1 
Media muestral: X=-D'X¡ = -X4 +—X3 +.. +—Xn 
nS n n n 


Por las propiedades estudiadas anteriormente, si X4, X2, ..., Xn son variables aleatorias 
independientes, entonces 


1 1 
y =-— My, he + 
Hz = 7 Px, + ba n PX, 
2 1 1 1 
ox = ox, +o, ++, 


Además, como las variables aleatorias provienen de la misma población: 
Hx = E(X) =u, i=1,2,3,... n 


o? =WX)=0% ¡1=1,2,3,...,n 


Al sustituir en las fórmulas anteriores y simplificar se completa la demostración. 


La media o valor esperado uz de la media muestral X debe entenderse como el valor que 


tomaría la variable aleatoria X si se tomase una cantidad muy grande de muestras y se 
calculara su promedio. Entonces el resultado se acercaría cada vez más al valor de pu 


Definición: Media de la muestra tomada de una población normal 


Si la muestra proviene de una población con distribución normal con media u y varianza O”, 


entonces la media muestral X tiene distribución normal y su media y varianza son: 
Media: 


Varianza: 


Demostración 

Se basa en la comparación de la función generadora de momentos de una variable aleatoria con 
distribución normal y la función generadora de momentos de la media muestral definida mediante 
el producto de las funciones generadoras de momentos de las variables aleatorias. 
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9.1.1 CORRECCIÓN DE LA VARIANZA 
Si el tamaño N de la población es finito y este número no es muy grande con respecto al 
tamaño n de la muestra, se debe usar la siguiente fórmula para corregir la varianza muestral. 


Corrección de la varianza: 


Si n>5%N, entonces: 


Ejemplo 

Un fabricante especifica que la duración de sus baterías tiene distribución normal con media 36 
meses y desviación estándar 8 meses. Calcule la probabilidad que una muestra aleatoria de 9 
baterías tenga una duración no mayor a 30 meses. 


Especificaciones para la población 
X variable aleatoria continua (duración en meses de cada batería) 
u parámetro de interés (media poblacional) 
X tiene distribución normal con p= 36, o? = 8? 


Datos de la muestra 


f = 12 E 
Media muestral: X = -9 X; , tamaño de la muestra: n = 9 
i=1 
Por la propiedad establecida anteriormente 
2 


. . . ” sr o 
X tiene aproximadamente distribución normal con uz =H =36 y o2 =— = — 
n 


La variable aleatoria y la media muestral tienen distribución normal aproximadamente 


— X a z 
P(X <30) = P(Z < ČH ) = p(z < 50-38 


Ox v7.1 


La media o valor esperado de X es igual a la media poblacional u, por lo tanto, cualquier valor 


) = P(Z< 2.6) = F(-2.6) = 0.0122 = 1.22% 


de X , aunque aleatorio, debería estar razonablemente cerca de p. 


El resultado obtenido indica que la probabilidad que la media muestral tenga un valor menor o 
igual a la media obtenida con los datos, es un valor muy pequeño. Esto podría interpretarse 
como un indicio de que lo afirmado por el fabricante no es verdadero. 
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9.2 TEOREMA DEL LÍMITE CENTRAL 


El siguiente enunciado es uno de los más importantes teoremas de la estadística inferencial 


Definición: Teorema del límite central 


Si X es la media de una muestra aleatoria de tamaño N extraída de una población que 
. A á 2 
tiene media H yvarianza O”, entonces 


es una variable aleatoria cuya función de probabilidad se aproxima a la de la distribución 
normal estándar a medida que N aumenta 


La demostración formal de este teorema requiere el manejo de límites de la función generadora 


. y X- i ; . 
de momentos de la variable aleatoria Z==———. También se puede experimentar mediante 


simulaciones con el computador observándose que, sin importar la distribución de probabilidad 
de una variable aleatoria discreta o continua X de la cual se muestea, el límite de la variable 
aleatoria Z tiende a la forma tipo campana de la distribución normal estándar, cuando n crece. 


Con carácter general, o al menos en los modelos de probabilidad clásicos, se admite como una 
aproximación aceptable al modelo normal siempre que n > 30 y se dice que la muestra es 
“grande”. Adicionalmente en este caso, si se desconoce la varianza de la población se puede 
usar como aproximación la varianza muestral: o? = S? 


NOTA: El teorema del límite central no implica que la distribución de la variable X tiende a la 
distribución normal a medida que n crece. El teorema establece que la distribución de la variable 
Z tiende a la distribución normal estándar cuando n crece. 


Ejemplo 

Un fabricante especifica que cada paquete de su producto tiene un peso promedio 22.5 gr. con 
una desviación estándar de 2.5 gr. Calcule la probabilidad que una muestra aleatoria de 40 
paquetes de este producto tenga un peso promedio no mayor a 20 gr. 


Especificaciones para la población 
X variable aleatoria continua (peso en gr. de cada paquete) 


u parámetro de interés (media poblacional) 
X tiene media u= 22.5, y varianza 0? =2.5”. No se especifica su distribución 


Datos de la muestra 


/ = 1€ 
Media muestral: X = -9 X; , tamaño de la muestra n = 40, (muestra grande), 
i=1 


aa ; , X- 
Por el teorema del límite central, la variable aleatoria Z = = 


tiene distribución de probabilidad aproximadamente normal estándar 
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E N 20-uy, _ 20 -22.5 
P =P(X<20)=P(Z< EE) = p(z < E 


J J40 
Conclusión 


Se observa que la probabilidad de que la media muestral tenga un valor menor o igual a 20 es 
aproximadamente cero, por lo tanto inferimos que lo especificado por el fabricante no es verdad. 


) = P(Z < 6.3246) = F(-6.3246) = 0 


Ejemplo 

Si X es una variable aleatoria exponencial con parámetro ß = 4 y de esta población se toma una 
muestra aleatoria de tamaño 36, determine la probabilidad de que la media aritmética muestral 
tome valores entre 3.60 y 4.11 


Si la variable X tiene distribución exponencial, entonces su media y varianza son: 


p=E)=$P=4, o° =V(X)=ßB°=16 > 0=4 


Si la muestra es grande, entonces por el teorema del límite central 


X- ; SEEI E l 
= p tiene distribución normal estándar aproximadamente 


Entonces 
P(3.60 < X < 4.11) =P 0-4 4.11-4 


——— < Z < ———) = P(-0.6 < Z < 0.165) = 0.2913 
TAI ) 


EJERCICIOS 


1) Una máquina envasadora de refrescos está programada para que la cantidad de líquido sea 
una variable aleatoria con distribución normal, con media 200 mililitros y una desviación estándar 
de 10 mililitros. Calcule la probabilidad que una muestra aleatoria de 20 envases tenga una 
media menor que 185 mililitros 


2) La altura media de los alumnos de un plantel secundario es 1.50 mts. con una desviación 
estándar de 0.25 mts. Calcule la probabilidad que en una muestra aleatoria de 36 alumnos, la 
media sea superior a 1.60 mts. 
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9.3 LA DISTRIBUCIÓN T 


La distribución T o de Student es una función de probabilidad con forma tipo campana simétrica 
Su aplicación más importante se describe a continuación 


Suponer que se toma una muestra aleatoria de tamaño N<30 de una población con distribución 


normal con media u y varianza desconocida. En este caso ya no se puede usar la variable 
aleatoria Z. En su lugar debe usarse otro estadístico denominado T o de Student 


Este estadístico es útil cuando por consideraciones prácticas no se puede tomar una muestra 
aleatoria grande y se desconoce la varianza poblacional. Pero es necesario que la población 
tenga distribución normal. 


Definición: Distribución T 


Sean X y S° la media y varianza de una muestra aleatoria de tamaño n<30 tomada de 
una población normal con media u y varianza desconocida, entonces la variable aleatoria 


tiene distribución T con v=n-1 grados de libertad 


9.3.1 GRAFICO DE LA DISTRIBUCIÓN T 
La forma específica de la distribución T depende del valor de v, el cual es el parámetro para 
este modelo con la definición: v=n-—1 y se denomina “grados de libertad”. 


-6 -4 -2 0 2 4 6 
Distribución T para V= 2, 5, 20 grados de libertad. 
Para calcular probabilidad con la distribución T, si no se dispone de una calculadora estadística o 


un programa computacional estadístico, se pueden usar tablas que contienen algunos valores de 
esta distribución para diferentes grados de libertad con la siguiente definición: 
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Definición 


tą es el valor de T tal que el área a la derecha es igual a a:  P(T>t,)=a 


Uso de la distribución T 
Ejemplo 
Una población con distribución aproximadamente normal tiene una media especificada de 5.5 
siendo su varianza desconocida. 


Calcule la probabilidad que una muestra aleatoria de tamaño 6 tenga una media mayor o igual a 
6.5 con una desviación estándar de 0.5. 


Los datos especificados corresponden a la distribución T 
y." 


Mn 
P(X > 6.5) = P(T > 


, con v=n-1=5 grados de libertad 


6.5-5.5 
0.5 


J6 


En la Tabla T, se puede observar en la fila v = n-1 = 5, 


) = P(T > 4.9) 


.01 .005 .0025 .001 .0005 


329: 1:000 3: 6.314 12.706 31.821 63.657 127.320 318.310 636.620 
¿209 816 1, 2.920 4.303 6.965 9.925 14.089 i 31:998 
2T OS 1 2.353 3.182 4.541 5.841 7.453 
.271 .741 1. 2.132 2.776 3.747 4.604 5.598 
20l dled A; 2.015 2.571 3.365 4.032 4.773 
¡20% «RO 1; 1.943 2.447 3.143 3.707 4.317 
¿203 (LL 1; 1.895 2.365 2.998 3.499 4.029 


a 
1 
2 
3 
4 
5 
6 
7 


to.0025 = 4.773: P(T 2 4.773) = 0.0025 
to.o01 = 5.893: P(T > 5.893) = 0.001 


Por lo tanto 0.001 < P(T > 4.9) < 0.0025 
Se puede concluir que 0.001 < P(X > 6.5) < 0.0025 


Mediante una interpolación lineal se puede calcular una aproximación mas precisa. 
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9.4 LA DISTRIBUCIÓN JI-CUADRADO 


Esta distribución se la obtiene de la distribución gamma. Tiene forma tipo campana con sesgo 
positivo. Se puede demostrar que si X es una variable aleatoria con distribución normal, 
entonces X? es una variable aleatoria con distribución ji-cuadrado. Este hecho explica la 
importancia de la distribución ji-cuadrado en problemas de muestreo de poblaciones con 
distribución normal. Una aplicación importante es la estimación de la varianza poblacional. 


Definición 


Sean X y S? la media y varianza de una muestra aleatoria de tamaño M tomada 


cz . . 2 a ; 
de una población normal con media u y varianza o”, entonces la variable aleatoria 
2 


S 
x =(n-1 21! 
[e] 


tiene distribución Ji-cuadrado con v=nN -1 grados de libertad 


El valor esperado de la variable y es E(y?) = n-1 


9.4.1 GRÁFICO DE LA DISTRIBUCIÓN JI-CUADRADO 
La forma específica de esta distribución de probabilidad depende del valor de v, el cual es el 
parámetro para este modelo con la definición v = N-1 y se denomina “grados de libertad” 


== Ji-cuadrado: nu = 2 
— Ji-cuadrado: nu = 4 
0.45! = Ji-cuadrado: nu=6 || 


0 2 4 6 8 10 12 14 16 18 20 
La distribución ji-cuadrado con v =2, 4, 6 


Algunos valores de la distribución ji-cuadrado están tabulados para ciertos valores de v y para 
valores típicos de aL con la siguiente definición 


Definición 


x2 es el valor de y tal que el área a la derecha es iguala a: P(x? 2 x2) =a 
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10 12 14 16 18 


2 4 6 Ka eè 
Uso de la distribución ji-cuadrado 


Ejemplo 

Una población con distribución aproximadamente normal tiene varianza especificada de 0.8. 
Calcule la probabilidad que una muestra aleatoria de tamaño 6 tenga una varianza mayor o igual 
a 12. 


Los datos especificados corresponden al uso de la distribución ji-cuadrado: 


2 
y = (n Bi con v =n -1 grados de libertad 
[o] 


P(S? > 1.2) = P(y? > 95) = P(y?> 6-972) = P(%2> 7.5) 


En la Tabla_ji-cuadrado se puede observar en la fila v=n-1=5 


.0009 .0039 .02 


P(xÍ > 4.35) = 0.5 
P(x? > 9.24) = 0.1 


Por lo tanto 0.1<P(y?>7.5)<0.5 
Con lo cual se puede concluir que 0.1 < P(S? > 1.2) < 0.5 


Mediante una interpolación lineal se puede calcular una aproximación mas precisa. 
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9.5 DISTRIBUCIÓN F 


Esta distribución es útil para realizar inferencias con las varianzas de dos poblaciones normales 
usando los datos de las varianzas de dos muestras aleatorias independientes con la siguiente 
definición. 
Definición 


Sean Sí y Sí las varianzas de dos muestras aleatorias independientes de tamaño 


X . 2 2 
1 y N2 tomadas de poblaciones normales con varianzas 07, 02, entonces la 


variable aleatoria 
2 2 
- 51/01 
2 2 
S2l05 


tiene distribución F con v1 = n1 - 1, v2 = n: — 1 grados de libertad 


9.5.1 GRÁFICO DE LA DISTRIBUCIÓN F 


La distribución F tiene forma tipo campana con sesgo positivo y depende de dos parámetros 
para este modelo: v1 , V2 los cuales se denominan “grados de libertad” 


= F nui =1,nu2=5 


— F: nui=10,nu2=5 
1.6} [~ F: nui=8,nu2=2 H 


0 05 1 15 2 25 3 35 4 45 5 
La distribución F para varios V1 , V2 


Algunos valores de esta distribución están tabulados para valores específicos de Q, V1, V2 
de acuerdo a la siguiente definición: 


Definición 


F , es el valor de F tal que el área a la derecha es igual a a: P(F> Pa) = 


Q, VaV 
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0.6} 


0.5 


0.3; 


0.1 


0 1 2 Fo, v:? 4 5 6 7 


Uso de la distribución F 


La siguiente es una relación útil para obtener otros valores de la distribución F: 


Ejemplo 
Calcule F con a= 0.05 y a = 0.95 si v1=9, v2=7 


Tabla F para QA = 0.05 


1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 œ. 
1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243,9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 


3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 
7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 
6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36 
5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67 
5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23 
5.32 4.46 4.07 3.84 3.69 3.58 3.50 3,444.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93 
5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71 
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9.6 ESTADÍSTICAS DE ORDEN 


Sea una población infinita con densidad continua de la que se toma una muestra aleatoria de 
tamaño n y se obtienen los valores 
X1, X25 X3; » = 1 Xn. 


Los datos se los escribe en orden creciente: 
X(1) X(2), X(3)1 == = X(n) 


Estos valores son instancias de las variables aleatorias 
Xa Xi Xa) + + +» Xin) 


Las variables definidas se denominan estadísticas de orden 


Definición: Estadísticas de orden para una muestra aleatoria de tamaño n 


Xm: Xi Xo) + + +» Xin 


9.6.1 DENSIDAD DE PROBABILIDAD DE LAS ESTADÍSTICAS DE ORDEN 


Se puede probar que si f y F son respectivamente la densidad y la distribución acumulada de X, 
entonces la densidad f, del estadístico de orden r es 


Definición: Densidad de probabilidad de la estadística de orden r 


n! 


(r - 3)!(n—r)! [Fe] TL FO e) Xq) ER 


f (Xe) z 


Ejemplo. Se tiene una población cuyos elementos están definidos por una variable aleatoria 
contínua X con densidad de probabilidad: 


kx, 0<x<1 
f(x) = 
0, para otro x 


De esta población se toma una muestra aleatoria de tamaño N = 5 
Encuentre las estadísticas de orden 1, 2, 3, 4,5 
Solución 


Primero determinamos el valor de k con la propiedad respectiva: 


k 


2 1 
2X, 0<x<1 
fro = faloa =| 3 =í21 > k=2 > t=] Ron 
0 0 2 p 2 


0, para otro x 


Densidad de la variable poblacional: f(x) =2x, 0<x<1 


Su distribución acumulada: F(x) = [¿2xax =x?,  -o<X<ow 
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Estadísticas de orden para la muestra aleatoria de tamaño N = 5 


O S, 


0 Xii) X2) X13) Xia) X15) 


Densidad del estadístico de orden Y para n=5, F=1,2,3,4,5 


f(X) = roeg A F(x) f(X), Xr) ER 


Densidad del estadístico de orden uno 
r=1,n=5, f(x)=2x, 0<x<1, F(x) = x?, con la notación: x = X() 


E 5! 21-14 2y5-1 
= gge PR, xeo 


Simpificando se obtiene 
f(x) =10(9(1-x?)*, 0<x<1 


Sucesivamente se obtienen las densidades de los otros estadísticos de orden 


r=2,n=5, f(x) = 2x, F(x) = x°, con la notación: x= Xq) 
f(x) = 40x°(1- x°)’, 0<x<1 


r=3,n=5, f(x) =2x, F(x) =x°, con la notación: x= X 
f(x) = 60x?(1- x°},  0<x<1 


r=4,n=5, f(x) =2x, F(x) = x°, con la notación: x= Xin 
f(x) = 40x" (1- x°),  0<x<1 


r=5,n=5, f(x) =2x, F(x) = x?, con la notación: x= Xn 
fs(x) = 10x?, 0<x<1 


Determine la probabilidad que la estadística de orden cuatro tome un valor menor que 1/2 


P(X < 112) = [7 “40x”(1-x?)dx = 1/64 


Graficar las densidades de las estadísticas de orden obtenidas 


Gráfico de f,(x), O<x<1 

Extremos fı(0) = 0, f,(1)=0 

Máximo: f;(x) = 10(1- x?)* - 80x? (1- x°)? = 10(1-x?y [(1- x?) - 8x°] = 0 
> (1xpP?=0 > x=1 

(1-xĉ)-8x? =1-9x 7 =0>x=+42 


3 
(1/3, 2.081) 
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Gráficos de las densidades de las estadísticas de orden 


10% 


EJERCICIOS 
1) a) Encuentre to.1 con v=18. b) Encuentre ta dado que P(t>ta) = 0.05, v=16 


2) Una población normal tiene especificada su media con el valor 5. Calcule la probabilidad 
que una muestra de 6 observaciones tenga una media menor que 4 con varianza de 1.2 


3) Una población con distribución aproximadamente normal tiene varianza especificada de 


1.4. Calcule la probabilidad que una muestra aleatoria de tamaño 8 tenga una varianza 
menor que 0.8 


4) Calcule F con A1=0.05 y & =0.95 si v¿=15, v2=20 


5) Se tiene una población cuya variable aleatoria X tiene la siguiente densidad de 


probabilidad: 
fx) = 00D, 1<x<2 


0, para otro x 


Calcule la probabilidad que la estadística de orden dos tome un valor mayor que 1.5 


186 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


MATLAB 


Graficación de la densidad de la distribución T . El gráfico está en la primera página 


>> t=-6:0.1:6; Puntos para evaluar la distribución T 
>> fl=tpdf(t, 2); Puntos de la distribución T 

>> f2=tpdí(t, 5); 

>> f3=tpdí(t, 20); 

>> plot(t,f1,'b"), grid on, hold on Graficación 

>> plot(t,f2,'k") 

>> plot(t,f3,'r') 

>> legend('nu=2','nu=5','nu=20') Rótulos 


Gráficación de las estadísticas de orden. El gráfico está en la página anterior 


>> f1="10*x*(1-x02)04"; Definición de las funciones de densidad 
>> f2='40*x^3*(1-x^2)^3'; 

>> f3='60*x^5*(1-x^2)^2'; 

>> f4="40*x007*(1-x02)'; 

>> f5="10*x09'; 


>> ezplot(f1,[0,1]), grid on,hold on Graficación 
>> ezplot(f2,[0,1]) 
>> ezplot(f3,[0,1]) 
>> ezplot(f4,[0,1]) 
>> ezplot(f5,[0,1]) 


Calcule P(X} < 1/2) 


>> p = int(f4, 0, 1/2) 
p == 
1/64 
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10 ESTADÍSTICA INFERENCIAL 


La Estadística Inferencial proporciona las técnicas para formular proposiciones acerca de la 
población, incluyendo una medida para determinar el riesgo de la afirmación. 


10.1 INFERENCIA ESTADÍSTICA 


Una inferencia estadística es una afirmación que se hace acerca de la población en base a la 
información contenida en una muestra aleatoria tomada de esta población. 


Debido a la naturaleza aleatoria de los datos obtenidos en la muestra, hay un riesgo en la 
certeza de la afirmación propuesta, y es necesario cuantificar el valor de este riesgo. 


Un estimador es una variable aleatoria cuyas propiedades permiten estimar el valor del 
parámetro poblacional de interés. La muestra aleatoria proporciona únicamente un valor de esta 
variable y se denomina estimación puntual. 


Para estimar al parámetro poblacional, es posible definir más de un estimador, por ejemplo para 


a la media poblacional u pueden elegirse la mediana muestral X o la media muestral X. Cada 
uno tiene sus propias características, por lo tanto, es necesario establecer criterios para elegirlo. 


Sean ©: Parámetro poblacional de interés (Ej. u) (Valor desconocido) 
O : Estimador (Ej. X) (Variable aleatoria) 
0 : Estimación puntual de O (Ej. X ) (Un valor del estimador) 
N 


Población 


Distribución muestral 
del estimador O) 


El estimador ® es una 
variable aleatoria 


muestra 


Valor del estimador, o estimación 
puntual, obtenido con la muestra 


La intuición sugiere que el estimador debe tener una distribución muestral concentrada alrededor 
del parámetro y que la varianza del estimador debe ser la menor posible. De esta manera, el 
valor que se obtiene en la muestra será cercano al valor del parámetro y será útil para estimarlo. 


10.2 MÉTODOS DE INFERENCIA ESTADÍSTICA 


Sean 0: Parámetro poblacional de interés (Ej. 4) (Valor desconocido) 
O : Estimador (Ej. X ) (Variable aleatoria) 
0: Estimación puntual de O (Ej. X ) (Un valor del estimador) 


10.2.1 ESTIMACIÓN PUNTUAL 
Se trata de determinar la distancia, o error máximo entre la estimación puntual 0 y el valor del 
parámetro O que se desea estimar, con algún nivel de certeza especificado. 


|0 - 0] 
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10.2.2 ESTIMACIÓN POR INTERVALO 


Con el valor O del estimador € se construye un intervalo que contenga al valor del parámetro O 
que se desea estimar, con algún nivel de certeza especificado. 


Li <0 <Ls 
En donde Li y Ls son los límites inferior y superior del intervalo 


10.2.3 PRUEBA DE HIPÓTESIS 
Se formula una hipótesis acerca del parámetro O asignándole un valor supuesto 84 y con el valor 


0 del estimador € se realiza una prueba para aceptar o rechazar la hipótesis propuesta con 
algún nivel de certeza especificado. 


Hipótesis propuesta: O = Op 


10.3 PROPIEDADES DE LOS ESTIMADORES 


Las siguientes definiciones establecen las características deseables de los estimadores 


Sean 6: Parámetro poblacional que se desea estimar. 
O: Estimador 


Definición 1: Estimador insesgado 


Se dice que el estimador © es un estimador insesgado del parámetro 6 


si E(O)=0 


Un estimador insesgado es aquel cuya media o valor esperado coincide con el parámetro que se 
quiere estimar. 


NN 
AW a 
AN 
LIN, 


En el gráfico se observa que 60, es un estimador insesgado del parámetro © pues E(0,) = 0. 
En cambio, O, no es un estimador insesgado del parámetro 9 pues E(O,) + 0. 


Debido a lo anterior, es mas probable que una estimación puntual de O, esté más cercana al 
parámetro 6, que una estimación puntual de O, 
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Ejemplo. La media muestral X es un estimador insesgado del parámetro u (media poblacional) 


Demostración: 


Definición 2: Estimador más eficiente 


Se dice que un estimador O, es más eficiente que otro estimador 0), si 
ambos son insesgados y además V(0,) < V(O,) 


Un estimador es más eficiente si tiene menor varianza. 
— x 


O; 


En el gráfico se observa que O, es un estimador más eficiente del parámetro 6, que el estimador 
0, pues ambos son insesgados pero la varianza de O, es menor que la varianza de 0O,. Por lo 
tanto, es mas probable que una estimación puntual de O, esté más cercana al valor de 0, que 
una estimación puntual de O, 


Definición 3: Estimador consistente 


Se dice que un estimador O es un estimador consistente del parámetro 6 
si O es un estimador insesgado de 0 y lim V(O) = 0 
n>30w 


Ejemplo. La media muestral X es un estimador consistente de u 


Demostración: 


v(X)=2 


Definición 4: Sesgo de un estimador 


El sesgo B de un estimador © está dado por 
B=E(0)-0 
Es la diferencia entre el valor esperado del estadístico y el valor del parámetro. 


De acuerdo con la definición anterior, el sesgo de un estimador insesgado es cero pues 
E(0;) = 0. 
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Definición 5: Error cuadrático medio (ECM) 


Es el valor esperado del cuadrado de la diferencia entre el estimador O 
y el parámetro 6: 


ECM(0O) = E[6 - 0]? 


Si se desarrolla el cuadrado y se sustituye la definición de varianza y de sesgo se obtiene: 


ECM(0) = V(O) + [E(0) - 0]? = V(O) + B? 


Esta definición resume las características deseables de un estimador: su varianza debe ser 
mínima y su distribución de muestreo debe estar concentrada alrededor del parámetro que es 
estimado, es decir el sesgo debe ser mínimo. 


Ejemplo 

Pruebe que la varianza muestral es un estimador insesgado de la varianza poblacional si se 
ds T r ; 2 

toma una muestra de tamaño N de una población normal con media u y varianza O 


a MALL = , 
Sea S?= 20 —x)? . Se tiene que probar que E(S?*) = o? 
Ti 


Primero expresamos la varianza muestral en una forma conveniente 


22 1, R E E 

S = 120% x) - 20 2x¡X +X a 0% 2x% x «y ) 
1,0 es o E 

2 -2x(nx)+ nx) = 2 -2nx +nx")= 2 nx) 


Con la definición de valor Topea 


E(S?) =E- HÈR -nk l=- RE- nEpÓ)] 


Cada variable X; proviene de la misma población con varianza o? y media u 
ox, =0° =E(X?)-E(X) =E(X)-1% => E(X?)=0"+p* 


La media muestral es una variable aleatoria con media y y varianza on 


2 2 
lo] —2 — —2 2 (oJ 
o% = =E(X )-E?(X)=E(X )- p? > E(X )=— +p? 


Se sustituyen en la o anterior Sen lo cual se completa la demostración 
1 
ES) == Le +5) - n(>— = po +np -0° -np) 


2 
o 2 
= —— (nm — — 
O 
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Ejemplo 
Se tiene una población de tamaño N = 6 definida por: {1, 2, 3, 3, 4, 5) 


a) Calcule la media de la población u 


b) Calcule la varianza de la población o° 

c) Especifique cuales son todas las muestras de tamaño n = 3 que se pueden obtener 

d) Determine la distribución de la media muestral 

e) Determine la distribución de la mediana muestral 

f) Verifique que la media muestral es un estimador insesgado 

g) Verifique si la mediana muestral es un estimador insesgado 

h) Verifique que la media muestral es un estimador mas eficiente que la mediana muestral 


Solución 


a) Calcule la media de la población u 
De la población especificada se deduce que la distribución de probabilidad es: 


1/6, x=1 2, 4,5 
f(x) = P(X = x) =+ 216, x=3 
0, otro x 
u= S xt(x) = 1(1/6) + 2(1/6) + 3(2/6) + 4(1/6) + 5(1/6) = 3 
Xx 
b) Calcule la varianza de la población o? 
o? = E(X?) - E?(X) 
E(X?) = Y x?f(x) = 1° (1/16) + 2° (116) + 3° (216) + 4? (1/6) + 5° (1/6) = 32/13 
Xx 
o? = 3213 - 3? = 5/3 
c) Especifique cuales son todas las muestras de tamaño n = 3 que se pueden obtener 


Cantidad de muestras de tamaño 3 


N 6 6! A 
> =20 (Las muestras son combinaciones) 


n) 13) 3131 


Media muestral Mediana muestral 


X 
(1, 2, 3) 2 (1) 6/3 
(1, 2, 4) 713 
(1, 2, 5) 8/3 
(1, 3, 3) 713 
(1, 3, 4) 8/3 
(1, 3, 5) 9/3 
(1, 4, 5) 10/3 
(2, 3, 3) 8/3 
(2, 3, 4) 9/3 
(2, 3, 5) 10/3 
(2, 4, 5) 11/3 
(3, 3, 4) 10/3 
(3, 3, 5) 11/3 
(3, 4, 5) 12/3 
Total 


Muestras Cantidad 


BA|[O0|[0|BA|[WO|W|W|B[W|W|W|N|[N|N|X1 


Diner Neem aaa 
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(1) La cantidad de formas diferentes de tomar un elemento 1, existiendo solamente uno en la 
población, un elemento 2, existiendo solamente uno en la población, y un elemento 3, del cual 
existen dos en la población es: 


Ll)? e 


Las muestras son combinaciones, por lo tanto el orden de los elementos no es de interés. 


d) Determine la distribución de probabilidad de la media muestral X 


Media muestral f(x) =P(X =x) 
x 
613 2120 
713 2120 
813 4120 
913 4120 
10/3 4120 
11/3 2120 
12/3 2120 
Total 1 


e) Determine la distribución de probabilidad de la mediana muestral X 


Mediana muestral f(x) =P(X = X) 


4120 
12/20 
4/20 

Total 1 


f) Verifique que la media muestral es un estimador insesgado de u 
uz = E(X) = Y x f(x) =(6/3)(2/20) + (713)(2120) + . . . + (12/3)(2/20) = 3 
Xx 


E(X)=3= u => X esun estimador insesgado de u 


g) Verifique si la mediana muestral es un estimador insesgado de u 


uz = E(X) = Èx f(X) =2(4/20) + 3(12/20) + 4(4/20) = 3 


E(X)=3=u = X esun estimador insesgado de u 


Nota: La media muestral es un estimador insesgado de u , pero la mediana lo es únicamente 
cuando la distribución de probabilidad de la variable X es simétrica: 
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E 1 2 3 4 5 


Diagrama de barras de la variable aleatoria X 
h) Verifique que la media muestral es un estimador más eficiente que la mediana 
muestral 


Se deben comparar las varianzas de los estimadores X y X 

o? = V(X) = E(X") -E?(X) 

E(X) = $x f(x) =(6/3)? (2/20) + (7/3)? (2/20) + . . . + (12/3)? (2/20) = 9.333 
x 


V(X) = 9.333 — 3? = 0.333 


oĉ = V(X) = E(X )-E?(X) 


E(X’) = TX = 2? (4/20) + 3? (12/20) + 4? (4/20) = 47/5 
Xx 


V(X) = 47/5 -3° = 0.4 


V(X) < V(X) = La media muestral X es un estimador más eficiente que la mediana 
muestral X para estimar a la media poblacional u 


EJERCICIOS 


1) Suponga que se tiene una población cuyos elementos son: { 3, 4, 4, 6} de la cual se toman 
muestras de tamaño 2. 
a) Escriba el conjunto de todas las muestras de tamaño 2 que se pueden obtener con los 
elementos de la población dada. 
b) Grafique el histograma de frecuencias de la media muestral 
c) Determine la distribución de probabilidad de la media muestral 
d) Demuestre que la media muestral es un estimador insesgado de la media poblacional. 
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2) Si se toma una muestra de tamaño n = 3 de una población cuya distribución de probabilidades 
está dada por 
1 
—X, X=12,3,4 
f(x) =< 10 » 
0, otro x 


Determine si la mediana muestral es un estimador más eficiente de la media poblacional que la 
media muestral 


Sugerencia: Asocie la distribución de probabilidad de la variable aleatoria X a la siguiente 
población: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4 }y liste todas las muestras de tamaño 3 


MATLAB 


Estudio de estimadores de la media poblacional 


>> x=[12 3345]; Población 
>> format rat Formato para ver números racionales 
>> mu = mean(x) Media poblacional 
mu = 
3 
Varianza poblacional. (Se escribe var(x) 
para varianza de una muestra) 


>> muestras=combnk(x,3) Lista de las muestras de tamaño 3 
muestras = 


3 
3 
3 
3 
2 
2 
2 
2 
2 
2 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 


NNNNOU W WWUUNUR WUV WWWRARAWUURARA 
WURA WURARAAUOURAR 01 a 01 Ol a 01 01 O 


>> n=length(muestras) Cantidad de muestras de tamaño 3 
n= 
20 
>> medias = mean(muestras' ) Lista de las medias de las 20 muestras 
medias = 
4 4 11/3 10/3 11/3 10/3 3 10/3 3 8/3 
10/3 3 8/3 3 8/3 713 8/3 713 2 2 
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>> medianas = median(muestras' ) Lista de las medianas de las 20 muestras 


medianas = 
4 4 3 3 3 3 3 
4 3 3 3 2 2 2 2 


>> mmedias = mean(medias) Media de las medias muestrales 


mmedias = 
3 (estimador insesgado) 


>> mmedianas=mean(medianas) Media de las medianas muestrales 


mmedianas = 
3 Coincide con la media poblacional 


>> vmedias =var(medias', 1) varianza de la media muestral 
vmedias = 
1/3 
>> vmedianas=var(medianas', 1) Varianza de la mediana muestral 


vmedianas = 
215 


La varianza de la mediana muestral es mayor a la varianza de la media muestral, por lo tanto, la 
media muestral es un estimador más eficiente de la media poblacional 
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10.4 INFERENCIAS RELACIONADAS CON LA MEDIA 


10.4.1 ESTIMACIÓN PUNTUAL DE LA MEDIA 


Caso: Muestras grandes (n 2 30) 
Parámetro: 4 (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución desconocida, varianza o? 
Estimador: X (Media muestral, se usa para estimar al parámetro) 


— 148 o? 
X= —Y X; , Media: ug =p Varianza: 5% == 
n i=1 n 
Siendo la muestra grande, por el teorema del límite central, el estadístico 
X- . TEEST : 
Z= A , es una variable con distribución normal estándar aproximadamente 
clyn 


Definición: Za 


Za es el valor de la variable Z en la distribución normal estándar tal que el área 
a la derecha debajo de f(Z) es igual a un valor especificado a: P(Z>Z,)= a. 


| E _—— 82) 


Ejemplo 
Encuentre Zo.o1 


P(Z > Zo.01) = 0.01 > P(Z < Zo.01) = 0.99 > F(Zo.01) = 0.99 


> Zo.o01 = 2.33 (Con la tabla de la distribución normal estándar) 


ALGUNOS VALORES DE USO FRECUENTE QUE CONVIENE RECORDAR 


Zo0.1 = 1.28 
Zo0os = 1.645 
Zo0.025 = 1.96 
Zoo = 2.33 
Z0.005 = 2.575 
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FÓRMULA PARA ESTIMACIÓN PUNTUAL DE LA MEDIA 


Consideremos la distribución normal estándar separando el área en tres partes. La porción 
central con área o probabilidad 1 - æ, y dos porciones simétricas a los lados con área o 
probabilidad a/2 cada una, siendo a un valor especificado 


Z 
Por la definición de probabilidad, se puede escribir: 
P(-Zu2 < Z < Zu2)=1-a 
Es equivalente a decir que la desigualdad 
- Zo < Z < Za se satisface con probabilidad 1 - a 
O equivalentemente: 
| Z | < Zw2 se satisface con probabilidad 1 - a 


Como se supone que la muestra es grande, por el teorema del límite central 


Z= al ] tiene distribución normal estándar aproximadamente 
s/n 
Sustituyendo en la desigualdad se obtiene: 
X-u p 
< Zalz con probabilidad 1 - aL 
| s/n | 


De donde |X - u| < tan con probabilidad 1 - a. 
n 


|X- u| es el error en la estimación del parámetro u mediante X 


Definición: Estimación puntual de la media, N > 30 


E = Zu2— es el máximo error en la estimación con probabilidad 1 - a 


Jn 


Es decir que si se estima u mediante X con una muestra de tamaño n>30, entonces se 


f . E A lo] 
puede afirmar con una confianza de 1 - aL que el máximo error no excederá de Za/2 — 


da 


; ; 2 : o 

NOTA: Si se desconoce la varianza poblacional ©“ se puede usar como aproximación la 
A 2 . 

varianza muestral S^, siempre que n > 30 


Ejemplo 
Se ha tomado una muestra aleatoria de 50 artículos producidos por una industria y se obtuvo 


que el peso de la media muestral fue 165 gr. con una desviación estándar de 40 gr. Encuentre 
el mayor error en la estimación de la media poblacional, con una confianza de 95%. 
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Parámetro: u 


Estimador: X 
n>30: muestra grande 


1 - a = 0.95 > a/2 = 0.025 > Zo.025 = 1.96 


0258 >0:5=40 


o) 40 
E=Z2-— =1.96(_)=11.08 gr. 
Jn J50 


Conclusión 
Se puede afirmar con una confianza de 95% que al usar la media muestral para estimar 
a la media poblacional el error no excederá en mas de 11.08 gr. 


10.4.2 TAMAÑO DE LA MUESTRA 
La fórmula anterior también se puede usar para estimar el tamaño de la muestra para que el 
error en la estimación no exceda a cierto valor con una probabilidad especificada 


Definición: Tamaño de la muestra, N > 30 


Tamaño de la muestra para que con probabilidad 1 - aL el máximo error en la estimación no 
exceda al valor especificado E 


2 
n=|Z. s= 
| TH 


Se obtiene directamente de la fórmula anterior: 


Ejemplo 

Se conoce que la varianza de una población es 20. Determine cual debe ser el tamaño de la 
muestra para que el error máximo en la estimación de la media poblacional mediante la media 
muestral no exceda de 1 con una probabilidad de 99% 


Solución 
1 -a= 0.99 > Zojo = Zo.005 =2.575 


o = V20 = 4.4721 
E=1 


2 2 
n= Zar z] = [2575 saar = 132.6 > n = 133 


Conclusión 
Debe usarse una muestra de tamaño 133 


EJERCICIOS 


1 ) Calcule Zo.025 


2) La media de la presión sanguínea de 40 mujeres de edad avanzada es 140. Si estos datos 
se pueden considerar como una muestra aleatoria de una población cuya desviación estándar 
es 10, encuentre, con una confianza de 95%, el mayor error en la estimación de la media 
poblacional. 
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10.4.3 ESTIMACIÓN POR INTERVALO 


Caso: Muestras grandes (n > 30) 
Parámetro: ų (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución desconocida, varianza o? 
Estimador: X (Media muestral, se usa para estimar al parámetro) 


E 4 n 2 o? 
X= 2 Xi Media: Lg =pu Varianza: 0% = E 
i=1 
Siendo la muestra grande, por el teorema del límite central, el estadístico 
X- ; ONE : E 
Z= i , es una variable con distribución normal estándar aproximadamente 
clyn 


FÓRMULA PARA ESTIMACIÓN POR INTERVALO PARA LA MEDIA 


Consideremos la distribución normal estándar separando el área en tres partes. La porción 
central con área o probabilidad 1 - æ, y dos porciones simétricas a los lados con área o 
probabilidad a/2 cada una, siendo æ un valor especificado 


Z 
Por la definición de probabilidad, se puede escribir: 
P(-Zo2 <Z< Za/2) =1-Q 
Es equivalente a decir que la desigualdad 
- Za <Z < Zo se satisface con probabilidad 1 - aL 
O equivalentemente: 
1Z|<zZzo2 se satisface con probabilidad 1 - a 


Como se supone que la muestra es grande, por el teorema del límite central 
_ X-p 
sin” 
Sustituyendo se obtiene: 


- Zaja Š ba Zoj2 con probabilidad 1 - a 
s/n 


tiene distribución normal estándar aproximadamente 


De donde al despejar el parámetro de interés yu se tiene, 


X-Zoj2 2 <u<X+Za2 2 con probabilidad 1 - a 
Jn Jn 


Definición: Estimación por intervalo para la media 


Intervalo de confianza para p con nivel 1 - aL, con una muestra de tamaño N > 30, 


X - Zu2 < u < X+ Zaj2 E 
/n Vn 
Los valores extremos se denominan límites de confianza 
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Ejemplo 

Se ha tomado una muestra aleatoria de 50 artículos producidos por una industria y se obtuvo 
que la media muestral del peso de los artículos fue 165 gr. con una desviación estándar de 40 
gr. Encuentre un intervalo para la media poblacional, con un nivel de confianza de 98%. 


Parámetro: u 
Estimador: X 
n >30: muestra grande 


1-0.=0.98 > a/2=0.01 > Zoo = 2.33 
o? z sS? > 0=S=40 


X - Zu2 | < u< X+ Zu2 | 
Jn Jn 
Sustituimos los datos 


165 -2.3340 < u <165 + 2.33 4 
J50 v50 


50 
151.8 < u < 178.1 


Conclusión 
Se puede afirmar con una confianza de 98% que la media poblacional se encuentra 
entre 151.8 y 178.1 gr. 


10.4.4 INTERVALOS DE CONFIANZA UNILATERALES 


Caso: Muestras grandes (n 2 30) 
Parámetro: ų (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución desconocida, varianza o? 
Estimador: X (Media muestral, se usa para estimar al parámetro) 


FÓRMULA PARA ESTIMACIÓN POR INTERVALOS UNILATERALES 


Con referencia a la distribución normal estándar: 


Z 


En forma similar al caso considerado para el intervalo de confianza bilateral, se pueden obtener 
fórmulas para intervalos de confianza unilaterales que contengan a la media con una 
probabilidad especificada 


Definición: Estimación por intervalo para la media 


Intervalo de confianza para p con nivel 1 - aL, con una muestra de tamaño N > 30, 


p< X+ > Aa Intervalo de confianza unilateral inferior 
n 


e] 


u > X- Za — Intervalo de confianza unilateral superior 
n 
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EJERCICIOS 


1) De una población con distribución desconocida se tomó una muestra aleatoria de tamaño 40 
y se obtuvo una media de 65.2 y una desviación estándar de 16. Construya un intervalo de 
confianza de 90% para la media poblacional. 


2) Un fabricante de pinturas desea determinar el tiempo promedio de secado de una nueva 
pintura. En 36 pruebas realizadas obtuvo un tiempo de secado medio de 64.2 minutos con una 
desviación estándar de 8.5 minutos. Construya un intervalo de confianza unilateral inferior de 
95% para la media del tiempo de secado de la nueva pintura. 


MATLAB 


Obtención de intervalos de confianza para la media, n > 30 


Se pueden calcular intervalos de confianza usando la función inversa de la distribución normal 


>> p = [0.01, 0.99]; Intervalo de confianza bilateral 
>> x = norminv(p, 165, 40/sqrt(50)) 1-a =98%, X =165, S=40, n=50 
x= 
151.8402 178.1598 


>> p = [0, 0.98]; Intervalo de confianza unilateral inferior 


>> x = norminv(p, 165, 40/sqrt(50)) 1-a =98%, X =165, S=40, n=50 
x= 
-Inf 176.6178 


>> p = [0.02, 1]; Intervalo de confianza unilateral superior 


>> x = norminv(p, 165, 40/sqrt(50)) 1-a =98%, X =165, S=40, n=50 
x= 
153.3822 Inf 


202 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


10.4.5 ESTIMACIÓN PUNTUAL DE LA MEDIA 


Caso: Muestras pequeñas (n<30) 


Parámetro: ų (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución normal, varianza o” desconocida 
Estimador: X (Media muestral, se usa para estimar al parámetro) 


Para realizar inferencias se usa una variable aleatoria con distribución T 


T= 


con v=n-1 grados de libertad 


u 
siv/n” 


FÓRMULA PARA ESTIMACIÓN PUNTUAL DE LA MEDIA 


Consideremos la distribución T separando el área en tres partes. La porción central con área o 
probabilidad 1 - a, y dos porciones simétricas a los lados con área o probabilidad a/2 cada 
una, siendo aL un valor especificado 


Por la definición de probabilidad, se puede escribir: 
P(-tu2 < T < tu) = 1- a 


Es equivalente a decir que la desigualdad 
- tua2 < T < toa se satisface con probabilidad 1 - aL 


O equivalentemente: 
|T]|<to se satisface con probabilidad 1 - aL 


Como se supone que la muestra es grande, por el teorema del límite central 


a f tiene distribución normal estándar aproximadamente 
sIvn 
Sustituyendo en la desigualdad se obtiene: 
X=j E 
< tor con probabilidad 1 - al 
| siyn a 


De donde |X - u| < tar E con probabilidad 1 - a. 
n 


IX- ul] es el error en la estimación del parámetro u mediante X 


Definición: Estimación puntual de la media, n < 30 


E= Zojz-— es el máximo error en la estimación con probabilidad 1 - aL 
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Es decir que si se estima u mediante X con una muestra de tamaño N < 30, entonces se 


N ; Ei > S 
puede afirmar con una confianza de 1 - a que el máximo error no excederá a Zaj2 — 


vn 


Ejemplo 

Se ha tomado una muestra aleatoria de 20 artículos producidos por una industria y se obtuvo 
que el peso de la media muestral fue 165 gr. con una desviación estándar de 40 gr. Encuentre 
el mayor error en la estimación de la media poblacional, con una confianza de 95%. Suponga 
que la población tiene distribución normal. 


Solución 
Parámetro: u, población normal, varianza desconocida 


Estimador: X 
n <30: muestra pequeña 


1- a = 0.95 > al2 = 0.025 > to.025 = 2.093, con la tabla T 
v =20 -1=19 grados de libertad 


sS 40 
E=toj2— =2.093(——) = 18.72 gr. 
20 


Jn 


Conclusión 
Se puede afirmar con una confianza de 95% que al usar la media muestral para 
estimar a la media poblacional, el error no excederá a 18.72 gr. 


EJERCICIOS 


Un inspector de alimentos examina una muestra aleatoria de 10 artículos producidos por una 
fábrica y obtuvo los siguientes porcentajes de impurezas: 2.3, 1.9, 2.1, 2.8, 2.3, 3.6, 1.8, 3.2, 
2.0, 2.1. Suponiendo que la población tiene distribución normal, encuentre el mayor error en la 
estimación de la media poblacional, con una confianza de 95%. 
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10.4.6 ESTIMACIÓN POR INTERVALO 


Caso n<30 (Muestras pequeñas) 


Parámetro: ų (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución normal, varianza © desconocida 
Estimador: X (Media muestral, se usa para estimar al parámetro) 


Para realizar inferencias se usa una variable aleatoria con distribución T 


T ES con v=n-1 grados de libertad 


si /n 


NOTA: Si la población tuviese distribución normal y la varianza poblacional © 
fuese conocida, la variable aleatoria para realizar inferencias tendría distribución 
normal estándar Z, sin importar el tamaño de la muestra. 


FÓRMULA PARA ESTIMACIÓN POR INTERVALO PARA LA MEDIA 


Consideremos la distribución T separando el área en tres partes. La porción central con área o 
probabilidad 1 - A, y dos porciones simétricas a los lados con área o probabilidad a/2 cada 
una, siendo aL un valor especificado 


S 


Por la definición de probabilidad, se puede escribir: 
P(-tu2 < T < tor?) = 1- a 


Es equivalente a decir que la desigualdad 


- tojz < T < toa se satisface con probabilidad 1 - a 
D a 
Sustituyendo: T= 5 en la desigualdad 
Jn 
Se obtiene: 
Haz < 4 < tojg con probabilidad 1 - aL 


Jn 
De donde al despejar el parámetro de interés yu se tiene, 


X-tu2 < u <X+tu2 con probabilidad 1 - a. 
Jn Jn 


Definición 


Intervalo de confianza para u con nivel 1 - a, con n < 30, 
población normal y varianza desconocida, 


AA <p ty 


vn vn 


Los valores extremos son los límites de confianza 
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Ejemplo 

De una población con distribución normal se tomó una muestra aleatoria de 4 observaciones 
obteniéndose: 9.4, 12.2, 10.7, 11.6. Encuentre un intervalo para la media poblacional, con un 
nivel de confianza de 90% 


Parámetro: u, población normal, varianza desconocida 
Estimador: X 
n<30: muestra pequeña 
Calculamos la media y varianza muestrales: 
1 4 
x=) X¡= : (9.4 + 12.2 + 10.7 + 11.6) = 10.975 
4% 4 


n 
s= i l ¿20 Xx)? = > [(9.4 - 10.975)? +... ] = 1.4825 
T= j=1 


S=yS? = /1.4825 = 1.2176 


1 - a = 0.90 > @l2 = 0.05 > tajo = to.os = 2.353, (tabla T) 


v=4-1=3 grados de libertad 
Sustituímos los valores en la desigualdad 


X- taz < u <X+tu2 
Vn Jn 
Se obtiene 


10.475 - 2.353 1:2176 < u <10.475 + 2.353 1:2176 
De Ya 


4 
9.5425 < u < 12.4075 


Conclusión 
Se puede afirmar con una confianza de 90% que la media poblacional 
se encuentra entre 9.5425 y 12.4075 


EJERCICIOS 

1) De una población con distribución normal y varianza 225 se tomó una muestra aleatoria de 
tamaño 20 y se obtuvo una media de 64.5. Construya un intervalo de confianza de 95% para 
la media poblacional. 


2) Un fabricante de pinturas desea determinar el tiempo promedio de secado de una nueva 
pintura. En diez pruebas realizadas obtuvo un tiempo de secado medio de 65.2 minutos con 
una desviación estándar de 9.4 minutos. Construya un intervalo de confianza de 95% para la 
media del tiempo de secado de la nueva pintura. Suponga que la población es normal. 


3) El peso de seis artículos de una muestra aleatoria tomada de la producción de una fábrica 
fueron: 0.51, 0.59, 0.52, 0.47, 0.53, 0.49 kg. Encuentre un intervalo de confianza de 98% para 
la media del peso de todos los artículos producidos. Suponga distribución normal. 
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MATLAB 


Obtención de intervalos de confianza para la media, n < 30 


>> u = [9.4 12.2 10.7 11.6]; Vector conteniendo una muestra de cuatro datos 
>> m = mean(u) Media muestral 
m= 
10.9750 
>> s = std(u) Desviación estándar muestral 
s= 
1.2176 
>> ta = tinv(0.95,3) Valor del estadístico t para a = 0.05, v=3 
ta = 
2.3534 
>> x =[m - ta*s/sqrt(4), m+ta*s/sqrt(4)] Intervalo de confianza bilateral para u 
MS 
9.5423 12.4077 
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10.5 PRUEBA DE HIPÓTESIS 


Esta técnica estadística es muy utilizada como soporte a la investigación sistemática y 
científica. Consiste en suponer algún valor para el parámetro de interés y usar los datos de la 
muestra para aceptar o rechazar esta afirmación. 


Es importante entender las diferentes situaciones que pueden ocurrir al probar una hipótesis 
estadísticamente. 


Sea Ho: hipótesis que se propone para el parámetro de interés 


Suponer que se dispone de datos con los que se realiza una prueba estadística de esta 
hipótesis. Entonces pueden ocurrir las siguientes situaciones para tomar una decisión: 


Decisión 


Aceptar Ho Rechazar Ho 


Decisión 
correcta 


Ho es verdadera 


Ho es falsa a Decisión 
iS correcta 


Si con el resultado de la prueba estadística rechazamos la hipótesis propuesta sin conocer que 
era verdadera, entonces cometemos el Error tipo | 


Si con el resultado de la prueba estadística aceptamos la hipótesis propuesta sin conocer que 
era falsa, entonces cometemos el Error tipo II 


Ambos errores pueden tener consecuencias importantes al tomar una decisión en una situación 
real. Por lo tanto es necesario cuantificar la probabilidad de cometer cada tipo de error. 


Definiciones 


Medida del error tipo |: 


a = P(Rechazar Ho dado que Ho es verdadera) 


Medida del error tipo Il: 


P = P(Aceptar Ho dado que otra hipótesis es verdadera) 


El valor aL se denomina nivel de significancia de la prueba y puede darse como un dato para 
realizar la prueba. 


Algunos valores típicos para & son 10%, 5%, 2%, 1% 


Terminología 


Ho: Hipótesis nula. Es la hipótesis que se plantea o propone para el parámetro en estudio. 
Ha: Hipótesis alterna. Es la hipótesis que se plantea en oposición a Ho y que es aceptada en 
caso de que Ho sea rechazada 


Generalmente es de interés probar Ha, por lo que se plantea Ho con la esperanza de que sea 
rechazada utilizando la información de la muestra. 
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Ejemplo 
Suponer que se desea probar, con algún nivel de significancia aL que la media poblacional no 
es igual a 5 


Entonces se puede plantear: 
Ho:u=5 
Ha: u+5 
Si con los datos de la muestra se puede rechazar Ho, entonces habremos probado Ha 


TIPOS DE PRUEBAS 
Sea 0: parámetro de interés para la prueba 
00: algún valor supuesto para el parámetro 


Pruebas de una cola 


1) Ho: 0 = ðo: (hipótesis nula) 
Ha: 0 < Op: (hipótesis alterna) 

2) Ho: 0 = Qo: (hipótesis nula) 
Ha: 0 > Op: (hipótesis alterna) 


Prueba de dos colas 
3) Ho: 0 = Op: (hipótesis nula) 
Ha: 0 < ðv 0 > ðo: (hipótesis alterna) 


PROCEDIMIENTO BÁSICO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS 
Para establecer el procedimiento usamos un caso particular, pero la técnica es aplicable para 
realizar pruebas con otros parámetros. Este procedimiento básico consta de seis pasos. 


10.5.1 PRUEBA DE HIPÓTESIS RELACIONADA CON LA MEDIA 


Caso n > 30 (Muestras grandes) 
Parámetro: u (media poblacional) 
Población con distribución desconocida, varianza O 
Estimador: X (media muestral) 
Valor propuesto para el parámetro: Ho 


PASOS 
Paso 1. Formular la hipótesis nula: Ho: u= Ho 


Paso 2. Formular una hipótesis alterna que es de interés probar. Elegir una entre: 
Ha: u> Ho 
Ha: u< Ho 
Ha: u< Ho V H> Ho 

Paso 3. Especificar el nivel de significancia de la prueba @ 


Paso 4. Seleccionar el estadístico de prueba y definir la región de rechazo de Ho 


Por el Teorema del Límite Central, el estadístico 
Z= X — Ho 


olyn 


La región de rechazo depende de la hipótesis alterna elegida Ha y está determinada 
por el valor de æ especificado. Se analizan los tres casos 


, tiene distribución normal estándar aproximadamente 
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Primer caso Ho: u= Ho 
Ha: 4 > Ho 


X Población 


X Media muestral 


> 
Región de rechazo de Ho 


Con el valor especificado «aL se obtiene el valor de Za el cual delimita la región de rechazo. 


La media muestral X es un estimador insesgado del parámetro u, por lo tanto su valor 
esperado coincide con el valor propuesto Ho para el parámetro. 


Según lo anterior, el valor obtenido para la media muestral X debería estar cerca de Ho, y por 
X — Ho 
olyn 


Pero si el valor obtenido en la media muestral X es “significativamente” mas grande que Ho, 


lo tanto, el valor de Z = estará cercano a 0, a la izquierda de Za. 


entonces Z caerá en la región de rechazo definida: Z > Za. 


Esto debe entenderse como una evidencia de que la media uo propuesta para el parámetro u 
no es verdad y que debería ser algún valor más grande, es decir: u > Ho 


Con esta interpretación rechazamos Ho en favor de Ha con un nivel de significancia ol 


Sin embargo, siendo X una variable aleatoria, es posible que caiga en la región de rechazo 
aún siendo verdad que Hp es el verdadero valor de la media muestral u. 


Esto constituye el error tipo I, y la probabilidad que esto ocurra es también q 


Esta interpretación debe ayudar a entender los otros dos casos: 


Segundo caso Ho: u= po 
Ha: u< uo 


Región de rechazo de Ho 


210 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


Tercer caso Ho: u= po 
Ha: u< pov H> Ho 


Z 


> 
Región de rechazo de Ho Región de rechazo de Ho 


Paso 5. Calcular el valor del estadístico de prueba con los datos de la muestra 


Paso 6. Tomar una decisión 
Si el valor del estadístico de prueba cae en la región de rechazo, la decisión es rechazar Ho 
en favor de Ha. Pero, si el valor no cae en esta región crítica, se dice que no hay evidencia 
suficiente para rechazar Ho. En este caso es preferible abstenerse de aceptar como 
verdadera Ho pues esto puede introducir el Error tipo II 


Ejemplo 
Una muestra aleatoria de 100 paquetes mostró un peso promedio de 71.8 gr. con una 
desviación estándar de 8.9 gr. 


Pruebe, con un nivel de significancia de 5%, que el peso promedio de todos los paquetes 
(población) es mayor a 70 gr. 


Seguimos los pasos indicados en el procedimiento básico indicado: 


1. Hipótesis nula 
Ho: u=70 


Hipótesis alterna 


Ha: u>70 


Nivel de significancia 
a = 0.05 


Estadístico de prueba 
X — Ho 
olyn 


por el Teorema del Límite Central. Además ozs? 


Z= 


Región de rechazo 
Za = Zo.o5 = 1.645 => Rechazar Ho en favor de Ha, si z > 1.645 


Valor del estadístico 
Mo _ 71-870 
oI/n  8.9/,/100 
Decisión 
Se rechaza que la media poblacional es 70 y se concluye, con una significancia de 5% 
que el peso promedio de la población es mayor a 70 gr, 


= 2.02 > 2.02 cae en la región de rechazo 
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EJERCICIOS 


1) Una muestra aleatoria de n=40 observaciones tomada de una población en estudio, produjo 
una media X =2.4 y una desviación estándar S=0.28. Suponga que se desea demostrar que la 
media poblacional ų es mayor a 2.3 


a) Enuncie la hipótesis nula para la prueba 

b) Enuncie la hipótesis alterna para la prueba 

c) Use su intuición para predecir si el valor de la media muestral X = 2.4 es suficiente 
evidencia para afirmar que la media poblacional u es mayor que el valor propuesto 2.3 
d) Realice la prueba de hipótesis con un nivel de significancia de a=0.05 y determine si 
los datos son evidencia suficiente para rechazar la hipótesis nula en favor de la 
hipótesis alterna. 


2) Repita el ejercicio 1) con los mismos datos, pero suponiendo que se desea demostrar que la 
media poblacional es menor que 2.7 


3) Repita el ejercicio 1) con los mismos datos, pero suponiendo que se desea demostrar que la 
media poblacional es diferente que 2.7 


MATLAB 


Prueba de hipótesis relacionada con la media, n > 30 
Vector con los datos de una muestra 


>>x=[71.76 69.34 83.16 88.38 67.15 72.72 64.61 77.86 50.76 80.61 73.75 74.13 ... 
82.60 69.36 70.62 60.49 56.99 65.54 74.30 66.98 59.93 81.35 65.46 71.70 ... 
71.79 69.58 75.33 69.45 56.99 62.64 73.96 60.62 68.71 63.42 61.35 62.71 ... 
68.23 73.35 70.77 81.27]; 


>> m=mean(x) media muestral 
m= 
69.7430 
>> s=std(x) desviación estándar muestral 


>> [h,p,ci,z]=ztest(x, 67, 8.049, 0.05, 1) Prueba Ho: 4 =67 vs. Ha: y > 67, 
© =S = 8.049, a = 0.05. Prueba unilateral derecha 


h=1 h=1 => La evidencia es suficiente para rechazar Ho 
p= 0.0156 Valor p de la prueba 

ci = 67.6497 Inf Intervalo de confianza con nivel 1 - aL 

z= 2.1553 Valor del estadístico de prueba Z 
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10.5.2 PRUEBA DE HIPÓTESIS RELACIONADA CON LA MEDIA 


Caso n<30 (Muestras pequeñas) 


Parámetro: u (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución normal, varianza o° desconocida 
Estimador T (Variable aleatoria con distribución T, con v=n-1) 


Valor propuesto para el parámetro: Ho 
Para realizar inferencias se usa una variable aleatoria con distribución T 


X-u A 
T= , con v=n-1 grados de libertad 
sin a 
PROCEDIMIENTO BÁSICO 
PASOS 
1. Formular la hipótesis nula: Ho: u= Ho 


2. Formular una hipótesis alterna, elegir una entre: 
Ha: u < uo 
Ha: u> Ho 
Ha: u % Ho 


3. Especificar el nivel de significancia de la prueba Q 


4, Seleccionar el estadístico de prueba y definir la región de rechazo de Ho 


t= 2 le , tiene distribución t con v = n-1 grados de libertad 
siyn 

Ha Región de rechazo de Ho en favor de Ha 

u < Ho t< -ta 

u > uo t> ta 

H #< uo t <-ta2 v t > taz 


5. Con los datos de la muestra calcular el valor del estadístico 


6. Si el valor del estadístico de prueba cae en la región de rechazo, la decisión es rechazar Ho 
en favor de Ha. Pero, si el valor no cae en esta región crítica, se dice que no hay evidencia 
suficiente para rechazar Ho. En este caso es preferible abstenerse de aceptar Ho como 
verdadera pues esto puede introducir el error tipo ll 


Ejemplo 

De una población normal se tomó una muestra aleatoria y se obtuvieron los siguientes 
resultados: 15, 17, 23, 18, 20. Probar con una significancia de 10% que la media de la 
población es mayor a 18 


Solución 
1. Ho: u=18 


2. Ha: u>18 


3. Nivel de significancia de la prueba æ = 0.10 


4, Estadístico de prueba 
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y -X—bo 


p sI /n 


, tiene distribución T con v = n - 1 grados de libertad 


X = — (15+17+23+18+20)=18.6 


S? = — ((15-18.6)' + (17-18.6) +...) = 9.3 > S = 3.05 


1 

| 
1 
4 


Región de rechazo de Ho 
a=0.1,v=5-1=4> to.1= 1.53 con la tabla T 


Rechazar Ho si t > 1.53 


_ 18.6-18 _ 


= ——— =0.44 > 0.44 nocae en la región de rechazo 
3.05//5 


6. Decisión 
No hay evidencia suficiente para rechazar que la media poblacional es 18. 


EJERCICIOS 


1) Una muestra aleatoria de 10 observaciones tomada de una población con distribución 
normal produjo una media 2.5 y una desviación estándar 0.28. Suponga que se desea 
demostrar que la media poblacional es mayor a 2.3 
a) Enuncie la hipótesis nula para la prueba 
b) Enuncie la hipótesis alterna para la prueba 
c) Use su intuición para predecir si el valor de la media muestral es suficiente 
evidencia para afirmar que la media poblacional es mayor que el valor propuesto 
d) Realice la prueba de hipótesis con un nivel de significancia de 5% y determine si 
los datos son evidencia suficiente para rechazar la hipótesis nula en favor de la 
hipótesis alterna. 


2) El peso de seis artículos de una muestra aleatoria tomada de la producción de una fábrica 
fueron: 0.51, 0.59, 0.52, 0.47, 0.53, 0.49 kg. Pruebe si estos datos constituyen una evidencia 
suficiente para afirmar que el peso promedio de todos los artículos producidos por la fábrica es 
mayor a 0.5 Kg. Encuentre el valor p o nivel de significancia de la prueba. Suponga distribución 
normal. 


MATLAB 


Prueba de hipótesis relacionada con la media, n < 30 


>> x = [15 17 23 18 20]; Vector con los datos de la muestra 
>> [h, p, ci, t] = ttest(x, 18, 0.1, 1) Prueba Ho: u =18 vs. Ho: u >18 
a = 0.1. Prueba unilateral derecha 


h=0 > La evidencia no es suficiente para rechazar Ho 


p = 
0.3414 Valor p de la prueba 
ci = 
16.5090 Inf Intervalo de confianza con nivel 1- QL 


ts 
tstat: 0.4399 Valor del estadístico de prueba 
df: 4 Grados de libertad 
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10.5.3 VALOR-P DE UNA PRUEBA DE HIPÓTESIS 


El Valor—p de una prueba de hipótesis, o probabilidad de cola, es el valor del área de la cola (o 
colas), a partir del valor observado y representa el nivel de significancia obtenido con la muestra. 


Si esta probabilidad es pequeña, es un indicativo de que los datos de la muestra no apoyan a la 
hipótesis nula propuesta pues el valor del estadístico de pruebase ubica lejos del valor propuesto 
para el parámetro. Pero si esta probabilidad es grande, significa que los datos de la muestra no 
contradicen a la hipótesis nula, pues el valor del estadístico se ubica cerca del parámetro 


Ejemplo 

Una muestra aleatoria de 100 paquetes mostró un peso promedio de 71.8 gr. con una desviación 
estándar de 8.9 gr. Pruebe que el peso promedio de todos los paquetes (población) es mayor a 
70 gr. 


El nivel de significancia aL no está especificado, por lo tanto lo obtenemos con los datos de la 
muestra 


Hipótesis nula Ho: 4 =70 


Hipótesis alterna Ha: u>70 


Valor del estadístico de prueba 
_X-Ho _71.8-70 _ 


2 5 = 2.02 
ol /n  8.91/100 


Probabilidad de cola 
P = P(Z > 2.02) = 1 - F(2.02) = 1 - 0.9783 = 0.0217 = 2.17% 


Se puede concluir que la prueba tiene una significancia de 2.17% 


Este valor se denomina Valor—p de la prueba o probabilidad de cola. 
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10.5.4 CÁLCULO DEL ERROR TIPO I 


El error tipo | es igual al nivel de significancia œ de la prueba y representa el error en que se 
incurrirá al rechazar Ho con la evidencia de la muestra, sin conocer que Ho es verdadera. 


Suponga que se define la siguiente hipótesis relacionada con la media, con una muestra grande. 


Ho: u = Ho (Hipótesis Nula) 

Ha: u > Ho (Hipótesis alterna) 

q: (Nivel de significancia o error tipo I) 
Z>Zu (Región de rechazo) 


La región de rechazo está definida con el valor crítico Zą que se obtiene del valor especificado az. 


La región de rechazo también puede definirse proponiendo un valor crítico © para X , entonces 
el nivel de significancia o error tipo | de la prueba es 


Definición: Error tipo I o nivel de significancia de la prueba 


C-ko) 


a = P(X > Cc) = P(Z > 


ol /n 


Los valores Zy y C están relacionados directamente: Za = Ho => C=Wot za(olvn) 
oivyn 
X Población 
Ho 
j y 
cat : Media muestral 
w € a 
ii . > 
¡Región de rechazo de Ho 
| 
Z Estadístico de prueba 


> 
Región de rechazo de Ho 


Para facilitar la comprensión del concepto se ha graficado también X con distribución normal 


Ejemplo. X es una variable aleatoria con distribución normal y varianza 49. Se plantea el 
siguiente contraste de hipótesis Ho: 4 = 15 vs Ha: u > 15 y se ha especificado como región 
de rechazo de H, que la media X de todas las muestras con n=40 tengan un valor mayor a 17 


Encuentre la medida del error tipo I 
17-15 


71./40 


Error tipo |: a. = P(X >c) = P(X >17)= P(Z > C — Ha )= P(Z > 


olyn 


)=P(Z>1.807) = 0.04 
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10.5.5 CÁLCULO DEL ERROR TIPO Il 
El error tipo Il se representa por f, y se usa para cuantificar el error en que se incurrirá al 
aceptar Ho: u=uo cuando la evidencia de la muestra no es suficiente para rechazarla, sin saber 


que el verdadero valor de la media u es algún otro valor mı. Para entender el concepto 
usamos un caso particular 


Caso 
Ho: u = Ho (Hipótesis nula) 
Ha: u > uo (Hipótesis alterna) 
q: (Nvel de significancia) 


Para calcular el valor de B debemos suponer que hay otro valor verdadero para el parámetro p. 
Sea ua el valor que suponemos verdadero. Entonces f es la probabilidad (área a la izquierda) 
del valor crítico C calculada con este valor u1. 


Definición: Error tipo II 


B=P(X<0),_,, = P(Z < 1) 


aia 


Xx Población 


Media muestral 


< f wg 


Región de aceptación de Ho | Región de rechazo de Ho 
l 


+4 Estadístico de prueba 


—_———_ A ———_——> 
Region de aceptación de Ho | Región de rechazo de Ho 


Ejemplo.- 
Suponga que se define la siguiente hipótesis relacionada con la media. 
Muestra: N =100, X =71.8, S = 8.9 

Ho: u=70 (Hipótesis Nula) 


Ha: u >70 (Hipótesis alterna) 
q: 5% (Nivel de significancia) 
Calcule la magnitud del error tipo II suponiendo que la media poblacional verdadera es u = 73 
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Solución 
Región de rechazo de Ho 


a = 0.05 > Za = Zo.o5 = 1.645 > Z >1.645 


Calculemos el valor crítico € de X para la región de rechazo: 
— C— Ho 


- sl /n 


Za => C= po + Za(o/Vn)= 70 + 1.645 (8.9/ /100) = 71.46 


70 

Ho 

70 71.46 73 
< Bo $ pa > 
Región de aceptación de Ho Región de rechazo de Ho 


x Población 


X Media muestral 


= Z Estadistico de prueba 
Za=1.645 

.. .. . > 
Región de aceptación de Ho Región de rechazo de Ho 


B = P(Aceptar Ho dado que la hipótesis verdadera es: 4 = u1) 


B = P(X<C) con u = m 
_ CH 71.46 -73 
=P(Z< A = rd < 
si yn )=P( 8.9//100 


Se concluye que la probabilidad de aceptar u = 70 siendo falsa es 4.18% si u = 73 es verdadera. 


) = P(Z < -1.73) = 4.18% (Error tipo Il con u = 73) 


10.5.6 CURVA CARACTERÍSTICA DE OPERACIÓN 


Si se grafican los puntos de f para algunos valores de u y se traza una curva, el gráfico 
resultante se denomina Curva Característica de Operación. Esta curva es utilizada como criterio 
en estudios de control de calidad. 


10.5.7 POTENCIA DE LA PRUEBA 


La potencia de una prueba estadística es un concepto relacionado con el error tipo Il. 


Suponga que se define la siguiente hipótesis relacionada con la media: 
Ho: u = Ho 
Ha: u > Ho 


Cálculo del error tipo Il: B = P(Aceptar Ho dado que otra hipótesis es verdadera: u = m1 ) 
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Si la muestra es grande, entonces: 


Y C-H 
p =P(X < c) u, = P(Z < oln? 
En donde € es el valor crítico de X con el que se acepta o rechaza Ho: 
Es posible calcular fB para otros valores u = u1, M2, u3,... por lo tanto, B es una función de p. 
El complemento de B(u) es otra función de u y se denomina Potencia de la Prueba K(y): 


Definición: Potencia de la prueba 


K(u) = 1 - B(u) 


Si B mide la probabilidad de aceptar una hipótesis falsa, entonces la potencia de la prueba K 
mide la probabilidad de rechazar una hipótesis falsa. 


El gráfico de K(u) representa la probabilidad de rechazar la hipótesis nula dado que es falsa, 
para diferentes valores de u 


Ejemplo 
Se conoce que la estatura de la población en cierto país puede ser modelada como una variable 


aleatoria normal con media u desconocida y desviación estándar © = 0.04 m. Para inferir el 
valor desconocido de la media se plantea el siguiente contraste de hipótesis: 


Ho: p = 1.7 vs. Hı: p < 1.7, y se define la región crítica como: 
R= [(%1, Xz +++, Xn)ER” | X1 + X2 +... +X <k} 


Determine k y n si se requiere que el nivel de significancia a o error tipo I sea 0.01, y que la 
potencia de la prueba sea igual a 0.98 cuando u = 1.67 


Solución 


Modelo poblacional: X ~ N(u, 0.04?) 
Hipótesis nula Ho: L = 1.7 
Hipótesis alterna Hı: u < 1.7 (Hı, es la hipótesis alterna) 


La región crítica R = L(X1, X2, . » -, Xn)ER” | X1+X2+... + Xn < K} establece que 
todas las muestras de tamaño n deben cumplir que X1 +X2+...+Xn<k 


La especificación: X1 +X2+... + Xp < k si se divide para n es equivalente a 
especificar que la región crítica o de rechazo es: x< k/n. Sea c = k/n 


Los cálculos se describen a continuación: 
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Error tipo l: a = 0.01 


< 
Rechazar Ho 


< 
Rechazar Ho 


a=0.01 > a=P(Z<-ZJ) 
= P(X<C) 


=P(Z< C-H) con u=1.7 


olyn 


0.001 =P(z <71) > (1) Con la tabla Z 
0.04//n 


En donde c= kl/n es el valor crítico de X que define a la región de rechazo de Ho 


Potencia de la prueba: K= 0.98 cuando u = 1.67 
H=1.67 


c p17 


Aceptar Ho 


Aceptar Ho 


K =0.98, con 4=1.67 > Error tipo ll: B=1- K= 1 - 0.98 = 0.02, con u= 1.67 


B=0.02 > B=P(Z>-Z4) con p= 1.67 
=P(X>c) con u= 1.67 


c-u 
=P(Z > con u= 1.67 
( ainn? H 


c -1.67 ) 
0.04//n 


> o0.98= pP(z< +8), > (2) Con la tabla Z 
0.041 /n 
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Al resolver las dos ecuaciones: 


c-1.7 
1 IIA 33 
(1) 0.041 /n 


c-1.67 


1 Z-T =2.055 
(1) 0.041 /n 


Se obtiene c= 1.684, n = 34.3 = 35 > k= nc = 58.94 


Ejemplo 
Un modelo para la describir el error en la calibración de una máquina es que sea N(u, 4?) 
Se postula el siguiente contraste de hipótesis 

Ho: 4 =250 vs. Hı: u> 250 


Determine el tamaño de la muestra n y la cantidad c para que la región crítica R de la muestra 
sea 

R = (0%, X2; «+. Xn) | X > c} 
Se requiere que el nivel de significancia œ o error tipo I de la prueba sea 0.0329, y que el error 
tipo Il sea 0.0228 cuando u valga 252. 


Solución 
Modelo poblacional: X ~ NX(p, 43), o =} >0=4 
Hipótesis nula Ho: u = 250 
Hipótesis alterna Hı: u > 250 
La región crítica R = {(X1, X2, . . . , Xn) | X> c} establece que todas las muestras de 
tamaño n deben cumplir que su media aritmética X sea mayor a c 


Nivel de significancia de la prueba o Error Tipo i: (1 = 0.0329 


y 


Rechazar Ho 


Z 


Rechazar Ho 


a = 0.0329 > a=P(Z> Za) 
=P(X>c) 
c-H 
olyn 
c-250 


41 4/n 


= P(Z> ) con u=250 


0.0329 = P(Z > ) 
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=>  0.9671= AS > E m (1) Conlatabla Z 
n 


Error tipo Il: f =0.0228 con u= 252 


Aceptar Ho 


P=0.0228 > PB=P(Z<Z,) con p = 252 
= P(X<c) con p = 252 

Cc— 
E) 


olyn 


=P(Z< con u = 252 


0.0228 = P(Z < T > ea (2) Con la tabla Z 
n 


Al resolver las ecuaciones 
c -250 
(1) = 1.84, 
4l -n 


Se obtienen c = 250.936, n = 61.78 = 62 


Calcule la potencia de la prueba para u entre 247 y 253. Calcule al menos diez valores 


B =P(Z<Za) con u = 247 
=P(X<c) con u = 247 
= P(X <250.936) con p = 247 
=P(Z< 2) con p = 247 
250.936 — 247 
41/62 
= P(Z < 7.748) 


=P(Z< ) 


= F(7.748) = 1 
K=1-f$=1-1=0 


Siguiendo este procedimiento con los otros valores de p, se obtienen los resultados que se 
muestran en el cuadro más abajo 
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u Z 

247.0 7.7480 
247.5 6.7638 
248.0 5.7795 
248.5 4.7953 
249.0 3.8110 
249.5 2.8268 
250.0 1.8425 
250.5 0.8583 
251.0 -0.1260 
251.5 -1.1102 
252.0 -2.0945 
252.5 -3.0787 
253.0 -4.0630 


Gráfico de la potencia de la prueba 


Ejemplo 
De una población X-N(u, 7°), (significa que la variable X tiene distribución normal con media u 
y varianza 7”), se ha tomado una muestra aleatoria de tamaño N para realizar la prueba de 
hipótesis: 

Ho: pu=15 

Ha:  u>15 
Siendo la región crítica X > C 
Se requiere que la potencia de la prueba tome el valor 0.8 cuando y = 17, y que la potencia de 
la prueba tome el valor 0.95 cuando yu = 18. 


Determine los valores de n, C 
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Solución 


Primero obtenemos los valores respectivos de [3 
u K 
17 0.8 
18 0.95 


z c— 
Usamos la fórmula para calcular ß: p =P(X < C) pu, = P(Z < — = “Hay 


oln 


c-17 c-17 


7d) 71 da? 


Conu=17: P= P(X< C)-17 = P(Z< 


Con la tabla Z 


c-18 c-18 


EN 7a? 


a > SE ses (2) Con la tabla Z 


Resolviendo estas dos ecuaciones: 
c-17 
1 = -0.84 2 
D ida (2) 


Conp=18:  PB=P(X< C).-18 = P(Z< 


Se obtiene N 232, C = 15.96 


Calcule el nivel de significancia de la prueba GQ, o error tipo I 


Solución 


+ cC- 
a=P(X > c), =P(Z > =) = P(Z > 


71 4/n 


15.96 -15 
71/32 


) = 1-F(0.7758) = 0.22 


Calcule y grafique la potencia de la prueba con U = 12, 13, ..., 19 


Solución 


K(u) = 1- B(u) = 1-P(X < €), .,, = 1-P(Z < 15.96 — py 


71/32 ) 


Valores calculados: 


p K=1- $ 
12 0 

13 y 0.009 
14 z 0.057 
15 ; 0.219 
16 ; 0.513 
17 y 0.800 
18 i 0.951 
19 y 0.993 
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EJERCICIOS 


Una variable aleatoria X tiene distribución normal con varianza 49. Se plantea el siguiente 
contraste de hipótesis: 


Ho: H =15 vs Ha: u> 15 
La región crítica para rechazar Ho es R = {(X1, X2, . . . , Xn) e R" [X> c}. Esto significa que la 


media muestral X debe ser mayor a C para todas las muestras aleatorias reales de tamaño N 
tomadas de la población. 


Se desea que el error tipo | sea 0.05, y que el error tipo Il sea 0.04 cuando u = 17 
a) Determine C y N 
b) Calcule y grafique la potencia de la prueba con u = 13.0, 13.5, 14.0, 14.5, 15.0, 15.5, 16.0 


225 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


MATLAB 


Potencia de la prueba 


Resolver el sistema de ecuaciones del último ejemplo 
-17 -18 
a) E = -0.84 o E =--165 
71 4/n 71 4/n 


>> [c,n]=solve('(c-17)/(7/sqrt(n))=-0.84",'(c-18)/(7/sqrt(n))=-1.65') 
cs 
15.9629 


n= 
32.1489 


Graficar la curva de la potencia de la prueba para el último ejemplo 
>> mu = 12:19 Valores de u 
mu = 
12 13 14 15 16 17 18 19 


>> beta = normcdf((15.96 - mu)/(7/sqrt(32))) Valores de (u) 
beta = 
0.9993 0.9916 0.9434 0.7811 0.4871 0.2003 0.0496 0.0070 


>> k = 1- beta Valores de k(u) = 1 - f(u) 
k= 
0.0007 0.0084 0.0566 0.2189 0.5129 0.7997 0.9504 0.9930 


>> plot(mu,k,'ob'),grid on,hold on Gráfico de los puntos k(u) 


>> plot(mu,k,'b') Gráfico de las líneas de k(L) 
>> legend('Potencia de la prueba K(mu)',2) 


4 


O Potencia de la prueba K(mu) 


0.9 


0.8 


0.7 F- 


0.61 


0.5t- 


0.4 


0.3 
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10.6 INFERENCIAS RELACIONADAS CON LA PROPORCIÓN 


En muchas aplicaciones interesa conocer el valor de un índice, tasa, etc., que representan la 
proporción de datos que consideramos “favorables” del total de datos en la población. 


En estas situaciones se utiliza como modelo la distribución binomial. Para usar este modelo se 
supone conocido el valor de probabilidad p. Por lo tanto, es de interés práctico conocer o al 
menos estimar el valor de este parámetro poblacional p. 


La variable aleatoria con distribución binomial tiene media u = NP y varianza o? = npa. 


De esta población se toma una muestra de tamaño N y se obtienen X datos favorables. La 


relación X/N se denomina proporción muestral P y es un estimador para el parámetro p. 


Caso n>30 (Muestras grandes) 


La variable aleatoria P=X/n es la media muestral. Esta variable es un estimador insesgado, es 
decir su media es igual al parámetro de interés p 


Demostración 


Media de P: Hp= E(p) = E(X/n) = 1/n E(X) = 1/n (np) = p 
Varianza de p: o°-= V(P) = V(XIn) = 1/n? V(X) = 1/n? (npq) = pa 


10.6.1 ESTIMACIÓN PUNTUAL 


Parámetro: p (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución binomial con media u y varianza ©“ desconocidas 


Estimador: P=x/n (Proporción muestral, se usa para estimar al parámetro) 


Muestras grandes (N 2 30). Entonces, por el teorema del límite central, el estadístico 


u 

Z= P tendrá aproximadamente distribución normal estándar. 
O- 
p 


FÓRMULA PARA ESTIMACIÓN PUNTUAL DE LA PROPORCIÓN 


Se desarrolla un análisis similar al realizado para la media muestral cuando N 2 30. 
Suponer especificado un valor de probabilidad centrado 1 — a 


La desigualdad - Zą2 < Z < Zajo se satisface con probabilidad 1 — al 


Equivale a decir que | Z | < Zą2 tiene probabilidad 1 — a 
p-p 


„pqin 


Sustituyendo Z se obtiene: | | < Zu2 con probabilidad 1 — a 
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De donde |p-p| < Zoz, ¡Ea con probabilidad 1 -— a 
n 
|Ip-p| es el error en la estimación de p mediante P 


Definición: Estimación puntual de la proporción, N > 30 


E= Zol2 ¡pa es el máximo error en la estimación de p con probabilidad 1 - a 
n 


Para poder evaluarlo, se usa la varianza muestral como aproximación: 


10.6.2 ESTIMACIÓN POR INTERVALO 


Parámetro: p (Esla medida poblacional cuyo valor se desea estimar) 
Población con distribución binomial con media u y varianza o” desconocidas 


Estimador: p=xin (Proporción muestral) 


Muestras grandes (N 2 30). Entonces, por el teorema del límite central, el estadístico 


z-P P 


tendrá aproximadamente distribución normal estándar. 
O- 
p 


FÓRMULA PARA ESTIMACIÓN POR INTERVALO DE LA PROPORCIÓN 


En la misma desigualdad anterior: 


- Zal2Ś Z < Zajz con probabilidad 1 - a 
Sustituimos Z = P-P y despejamos del numerador el parámetro p 
pq 
n 


Definición: Estimación por intervalo para la proporción 


Intervalo de confianza para p con nivel 1 - a, con una muestra de tamaño N > 30, 


p z BEN Pa < p < p + Zaza 
n n 


Para poder evaluarlo, se usa la varianza muestral como aproximación: 


Pq, Pq 
n n 
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Ejemplo 
En un estudio de mercado para un producto se tomó una muestra aleatoria de 400 personas de 
las cuales 140 respondieron favorablemente. 


Encuentre el error máximo en la estimación con probabilidad de 95% 


1- a = 0.95 > Zal2 = Zo.025 = 1.96 


P = 140/400 = 0.35 


E = Zaj2, ¡pa = 1.96 sa = 4.67% 
n 400 


Encuentre un intervalo de confianza para p con un nivel de 95% 
E pq A pq 
P = Za m PSP Fa 


0.35 - 1.96, 0-3510:55) < p < 0.35 + 1.96 [0-35100:65) 
400 0 


0.303 < p < 0.397 


Se puede afirmar con una confianza del 95% que la proporción de personas en la población 
que favorecen al producto está entre 30.3% y 39.7% 


10.6.3 PRUEBA DE HIPÓTESIS 


Parámetro: p (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución binomial con media u y varianza o? desconocidas 
Estimador: P=x/n (Proporción muestral) 


Muestras grandes (N 2 30). 
Valor propuesto para el parámetro: Po 


PROCEDIMIENTO BÁSICO 


1) Formular la hipótesis nula: Ho: p = Po (algún valor específico para p) 


2) Formular una hipótesis alterna, elegir una entre: 
Ha: p< Po 
Ha: p > Po 
Ha: P + Po 


3) Especificar el nivel de significancia aL para la prueba 
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4) Seleccionar el estadístico de prueba y definir la región de rechazo 


z= P-Po por el teorema del límite central tiene distribución normal estándar 
[Poqo 
n 
Ha Región de rechazo de Ho en favor de Ha 
P < Po Z < -Za 
p > Po Z> Za 
Pp + Po Z <Zaj2 V Z > Zol2 


5) Con los datos de la muestra calcule el valor del estadístico 


6) Si el valor del estadístico de prueba cae en la región de rechazo, la decisión 
es rechazar Ho en favor de Ha. Caso contrario, se dice que no hay evidencia 
suficiente para rechazar Ho. 


Ejemplo 

La norma de artículos aceptables producidos por una fábrica es 90%. Se ha tomado una 
muestra aleatoria de 175 artículos y se encontraron 150 artículos aceptables. Pruebe con una 
significancia de 5% que no se está cumpliendo con la norma 


Solución 
Sea p: proporción de artículos aceptables que produce la fábrica 


P = x/n = 150/175 = 0.857 = 85.7% 


¿Es esto una evidencia de que p < 90% o puede atribuirse únicamente a la aleatoriedad de los 
datos, con 5% de probabilidad de equivocarnos? 


1) Ho: p=0.9 
2) Ha: p < 0.93) Nivel de significancia de la prueba œ = 0.05 


4) Estadístico de prueba 
-P - Po 


Poqo 
\ n 


Región de rechazo de Ho 
a = 0.5 , Za = Zo.os = 1.645 


Z 


Rrechazar Ho si Z < -1.645 


n P - Po _ 0.857- 0.9 
[P (0.9)(0.1) 


Z = -1.869 > Z < -1.645 


n 175 


Decisión: Hay evidencia suficiente para afirmar que, con una significancia de 5%, no 
se cumple la norma 
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EJERCICIOS 


1) Se ha tomado una muestra aleatoria de 200 artículos producidos por una empresa y se 
observó que 175 fueron aceptables. Encuentre un intervalo de confianza de 95% para la 
proporción de artículos aceptables. 


2) Una muestra aleatoria de 400 observaciones produjo 150 resultados considerados éxitos. Es 
de interés para una investigación probar que la proporción de éxitos difiere de 0.4 

a) Proponga la hipótesis nula y la hipótesis alterna 

b) Realice una prueba para determinar si hay evidencia suficiente para rechazar la hipótesis nula 
en favor de la hipótesis alterna, con 10% de significancia. 


3) Una empresa realizó un estudio de mercado de su producto para lo cual consultó a 200 
consumidores. 28 expresaron su preferencia por el producto de la empresa. El fabricante cree, 
con este resultado que tiene el 10% del mercado para su producto. Pruebe con 5% de 
significancia si esta afirmación es correcta. 
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10.7 INFERENCIAS RELACIONADAS CON LA VARIANZA 


Para algunas pruebas y aplicaciones estadísticas, es importante estimar el valor de la varianza 
: 2 
poblacional O”. 


Suponer una población con distribución normal o aproximadamente normal de la cual se toma 
una muestra aleatoria de tamaño n y se obtiene la varianza muestral sê: 


1 = = 
S = — 0-7, X= TX 
13 nia 
El estadístico S° es un estimador insesgado del parámetro o? pues se puede demostrar que, 
2 
E(S = 0 


La varianza de la varianza muestral S? se puede demostrar que es 


A 2 , : . 
Parámetro: © (Es la medida poblacional cuyo valor se desea estimar) 
Población con distribución normal 


Estimador: S? (Varianza muestral, se usa para estimar al parámetro 
2 


El estadístico para realizar inferencias es y = (n- 1D que tiene distribución 
o 


Ji-cuadrado con v=n-1 grados de libertad 


10.7.1 INTERVALO DE CONFIANZA 


Para definir un intervalo de confianza, se sigue un procedimiento similar a otros parámetros. 


a A . 2 E aia . 5 
Definimos un intervalo central para la variable x” con área o probabilidad 1 - a, y la diferencia 
a se reparte a ambos lados en dos áreas iguales con valor al2. 


Debido a que la distribución de x” es asimétrica, los valores de esta variable no tienen la misma 


distancia desde el centro y se los representa con aia y X2 de acuerdo a la definición 


establecida para uso de la tabla Ji cuadrado. 


0,2 2 
L-ar Ya 72 


Entonces, con probabilidad 1 - al se tiene el intervalo para y 


2 2 2 
X1-a12 <% < Xal2 
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2 
S 
Si se sustituye la definición de la variable aleatoria y = (n-1) 7 y se despeja el parámetro de 
lo] 


A z 2 , 
interés © se obtiene 


ET A 2 : 
Definición: Intervalo de confianza para o” con nivel 1 - a 


Ejemplo 
En una muestra aleatoria se registró el peso de 10 paquetes y se obtuvieron los siguientes 
resultados en gramos: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 41.9, 45.2, 46.0 


Encuentre un intervalo de confianza para la varianza del peso de toda la producción, con un nivel 
de 95%. Suponga que la población tiene distribución normal 


= 12 
n=10, X=- X; =2 [46.4 + 46.1 + ... ] = 45.62 
n 10 


n — 
s- 12 (Xi -X} = 5 146.4 - 45.62)” + (46.1 - 45.62)? +... ] = 1.919 
T = j=1 


1-a=0.95, v=n-1=9 => %2 12=X6.025= 19.02 (Tabla xô) 
2 2 
> X1-a127 Xo.975 27 (Tabla xô) 


Se sustituye en la definición del intervalo de confianza: 
9 (1.919/19.02) < o° <9 (1.919/2.7) = 0.908 < o° < 6.398 


Se puede afirmar con una confianza de 95% que la varianza poblacional se encuentra en 
el intervalo [0,908, 6.398] 


10.7.2 PRUEBA DE HIPÓTESIS 


Se usa el mismo procedimiento básico para los parámetros estudiados anteriormente: 


1) Definir la hipótesis nula Ho: o= o2 (algún valor especificado) 
2) Elegir una hipótesis alterna: Ha: o° < 0% 

Ha: 0> 0% 

Ha: 07 0% 
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3) Seleccionar el nivel de significancia OL 
4) Estadístico de prueba 
s2 
x“ = (n-1) > distribución ji-cuadrado con v = n-1 grados de libertad 
So 


Región crítica 


Ha Región de rechazo de Ho en favor de Ha 
2 2 2 2 
o < oo X S Xia 
> oo Xka 
2 2 2,2 2 2 
o 706 X “Li-al2 YX ” Xal 
5) Calcular el valor del estadístico de prueba con los datos de la muestra 
6) Tomar una decisión. 


Ejemplo 
Un fabricante afirma que la duración de su producto tiene distribución aproximadamente normal 
con una desviación estándar de 0.9 años. 


Una muestra aleatoria de 10 productos tuvo una desviación estándar de 1.2 años. Pruebe, con 
una significancia de 5%, si esta evidencia es suficiente para afirmar que la desviación estándar 
poblacional es mayor a la especificada 


La prueba es aplicable a la varianza o? por lo tanto o= (0.9)? = 0.81 


1) Ho: o° = 0.81 
2) Ha: o? > 0.81 
3) a = 0.05 
4) Estadístico de prueba 
2 
x = (n-1) —-, distribución ji-cuadrado con v = n-1 grados de libertad 
So 
Región de rechazo 
a=0.05, v=N-1=9, > %505= 16.91 
Rechazar Ho si y? > 16.91 
2 
S 1.2) 
=n) 982 
0? 0.81 
o 


Con una significancia de 5%, se puede concluir que no hay evidencia suficiente para 
rechazar la afirmación del fabricante 


=16.0 
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EJERCICIOS 


1) Se tomó una muestra aleatoria de 15 observaciones de una población normal y se obtuvo que 
la media y la varianza muestrales fueron respectivamente 3.92 y 0.325. Encuentre un intervalo 
de confianza de 90 para varianza de la población. 


2) Una muestra aleatoria de 20 observaciones tomada de una población normal produjo una 
varianza muestral igual a 18.2. Determine si los datos proporcionan suficiente evidencia para 
afirmar que fla varianza poblacional es mayor a 15. Haga la prueba con 5% de significancia. 


3) El fabricante de un artículo afirma que la resistencia media de su artículo tiene distribución 
normal con una desviación estándar de 0.5. Una muestra aleatoria 4 observaciones produjo los 
siguientes resultados de su resistencia: 5.2 4.3 3.7 3.9 5.7. Realice una prueba con 5% de 
sigificancia para determinar si la desviación estándar especificada por el fabricante es cierta. 


4) Un fabricante de cables de cobre afirma que la resistencia de su producto tiene distribución 
normal con varianza de 100. 

Al probar la resistencia de cuatro artículos de una muestra aleatoria se obtuvieron los siguientes 
resultados: 130, 152, 128, 145. 

Pruebe con una significancia de 5% que la varianza excede a la especificación. 


MATLAB 


si : ; y 2 
Obtención de un intervalo de confianza para la varianza O 


Vector conteniendo una muestra de diez datos 


>> u=[46.4 46.1 45.8 47.0 46.1 45.9 45.8 41.9 45.2 46.0]; 
>> v=var(u) Varianza muestral 


>> ja=chi2inv(0.975,9) Valor del estadístico x? para QL=0.025, v=9 
ja= 
19.0228 
>> jla=chi2inv(0.025,9) Valor del estadístico y? para a = 0.975, v=9 
jla = 
2.7004 
>> x=[9*vlja, 9*v/jla] Intervalo de confianza bilateral para o? 
x= 
0.9082 6.3976 
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10.8 INFERENCIAS RELACIONADAS CON LA DIFERENCIA 


ENTRE DOS MEDIAS 


10.8.1 ESTIMACIÓN PUNTUAL E INTERVALO DE CONFIANZA 


CASO: Muestras grandes (n>30) 


En esta sección se desarrolla la técnica para comparar las medias de dos poblaciones. 


Supongamos dos poblaciones de las cuales se toman muestras aleatorias independientes 
para usar la diferencia de las medias muestrales como una estimación de las medias 


poblacionales. 
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Poblaciones 


Muestras 
aleatorias 
independientes 


Parámetro: Ha - M2 Diferencia de medias poblacionales 

Poblaciones con distribuciones desconocidas, con varianzas dí, 0 

Estimador: X, - X, Diferencia de medias muestrales 

Muestras aleatorias independientes de tamaños Ny y N2 mayores o iguales a 30 


Media y varianza del estimador:: 


Hx4=x0 = E(X; - X2) = E(X,) — E(X) = 1 - 2 (Es un estimador insesgado) 
2 2 
Y z z 3 z 01 © 
x= VOS = X2) = V(I) X; + (-1) X2] = (DV0G) + EDVOG)=72+ i 
1 
Adicionalmente, pueden aproximarse las varianzas poblacionales con las varianzas 


muestrales: oĉ = S, 0% = Sí 


2 
a 


Siendo las muestras grandes, por el teorema del límite central, el estadístico 


e (X1 -X2) - Hx,-x, - (X1X2)— (111 - H2) i 


tiene distribución normal estándar aproximadamente, 
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Con un planteamiento similar al realizado en casos anteriores se tiene 


Ha - Ho ra 
Z= Pú — 2) — (11 — H2) 
oi 92 
n n? 
= Z 
=Za/2 0 Za) 


Con probabilidad 1 - &æ, se cumple la desigualdad: -Zo¡2 < Z < Zoya 


Sustituyendo Z y con la definición de error en la estimación se obtiene: 


Definición: Error máximo en la estimación de u4- u2 con probabilidad 1 - a 


ICM ESPOL 


Sustituyendo Z y despejando el parámetro de interés u4 - 2 se obtiene: 


Definición: Intervalo de confianza para u1- u2 con nivel 1 - aL 
2 2 2 2 
Y Y [ol [ol z SF lo} lo} 
(Xi =- X2) - Za, 42 < p1- H2 < (X1 - X2) + Zo | + 2 
n N2 n n 


Ejemplo 


De dos poblaciones, 1 y 2, se tomaron muestras aleatorias independientes y se obtuvieron los 


siguientes resultados: 


Muestra n X s? 


1 36 12.7 1.38 
2 49 7.4 4.14 


Encuentre el mayor error en la estimación puntual de u1 - u2 con probabilidad 95% 


1- a = 0.95 > Zoj2 = Zo.025 = 1.96. Sustituimos en la fórmula: 


2 2 
E= Z, [S192 =1.96 (1:38, 414 - 0 687 
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Encuentre un intervalo de confianza para M1 - 2 con nivel 95% 


Sustituimos en la fórmula respectiva: 


(12.7 - 7.4) - 1.96 not + mestar zariy pee, 94 


49 36 49 
4.613 < u1- u2 < 5.987 


Con los datos de las muestras se puede afirmar con una confianza de 95% que u4 es 
mayor a u2 en un valor que puede ir desde 4.613 hasta 5.987 


10.8.2 PRUEBA DE HIPÓTESIS 


CASO: Muestras grandes (n>30) 
PROCEDIMIENTO BÁSICO 
1) Formular la hipótesis nula: Ho: u1- p2= do (usualmente do=0) 


2) Formular una hipótesis alterna, elegir una entre: 
Ha: ua - 2< do 
Ha: M1 - Ha > do 
Ha: Ma - 12% do 


3) Especificar el nivel de significancia para la prueba QL 
4) Seleccionar el estadístico de prueba y definir la región de rechazo de Ho 


X1- X2)-dọ .. ETE. ; y 
Z= sia a tiene distribución normal estándar aproximadamente 


Adicionalmente: oí = Sí, 0% = Sí 


Ha Región de rechazo de Ho en favor de Ha 
u1- 12< do Z < -Za 

u1- U2> do Z>Za 

Ma - 12% do Z<-Zoj2 V Z > ZoJ2 


5) Con los datos de la muestra calcule el valor del estadístico 
6) Si el valor del estadístico de prueba cae en la región de rechazo, la decisión 


es rechazar Ho en favor de Ha. Caso contrario, se dice que no hay evidencia 
suficiente para rechazar Ho. 
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Ejemplo. Suponga los siguientes datos correspondientes a dos muestras aleatorias 
independientes tomadas de dos poblaciones cuyas medias se desea estudiar 


muestra n s? 
1 75 64 
2 50 36 


Pruebe la hipótesis u> p2 con un nivel de significancia de 10% 


Solución 
1) 
2) 
3) 


4) 


Za = 1.28: Rechazar Ho si z > 1.28 
z= (82 - 76) - 0 


[64 36 
+ + == 
75 50 


Con una significancia de 10% se acepta que u1 > Ha 


= 4.78 


EJERCICIOS 


De dos poblaciones se tomaron muestras aleatorias independientes y se obtuvieron los 
siguientes resultados: 


Muestra n X s? 
1 36 1.24 0.056 
2 45 1.31 0.054 


a) Encuentre un intervalo de confianza para p1- u2 con nivel 90%. 
b) Con una significancia de 5% realice una prueba para determinar si la evidencia de las 
muestras es suficiente para afirmar que las medias poblacionales son diferentes. 
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10.8.3 INTERVALO DE CONFIANZA 


Caso: Muestras pequeñas (n<30) 


En esta sección se desarrolla la técnica para comparar las medias de dos poblaciones. 
Supongamos dos poblaciones de las cuales se toman muestras aleatorias independientes 
para usar la diferencia de las medias muestrales como una estimación de las medias 
poblacionales. 


Parámetro: u4- Ha Diferencia de medias poblacionales 


Poblaciones con distribuciones normales, con varianzas dí, 0% desconocidas 


Estimador: X, - X, Diferencia de medias muestrales 
Muestras aleatorias independientes de tamaños M1 y N2 menores a 30 


Media del estimador 


Hxqx9 = ELX; - X2]= E[X1]- E[X2]= pa - 2 (Estimador insesgado) 


Estadístico de prueba 
T= (X1 - X2) — (mı — 2) 


Xı-X2 


, distribución T 


Nota: Si las varianzas poblacionales of, oĝ fuesen conocidas teniendo las poblaciones 


distribución normal el estadístico tendría distribución normal estándar, sin importar el tamaño de 
las muestras 


La teoría estadística provee adicionalmente una prueba para verificar estas suposiciones acerca 
de las varianzas, la misma que se estudiará posteriormente. 


Se analizan dos situaciones acerca de las varianzas: oí = o y oí + 0%. 


2 2 
a) 01 = O, 


Estadístico de prueba 
y - (1-%X2)- (m 12) 
X1-X2 
1,1 g_(M-DSÍ+(m,-D5; 
E n, +n, -2 


, distribución T con v = Nnı + N2- 2 grados de libertad 
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Con un planteamiento similar al realizado en casos anteriores: 


q- (1-X2)- (11 112) 
S 


Xı-X2 


Con probabilidad 1 - æ, se tiene la desigualdad: -ta/2 < T < taz 
Sustituyendo T y despejando el parámetro de interés u4 - u2 se obtiene: 


Definición: Intervalo de confianza para pı- u2 con nivel 1-0 


(X,-X,) = tu2Sz < Hı -~ ua <(X; -X3) + tau2S 


X1-X2 


2 2 
b) 01, + O, 


Estadístico de prueba 


Te (X1 -X2)- (m -H2) , distribución T con v= 


So si Y 
nı 


grados de libertad 


Definición: Intervalo de confianza para pı- u2 con nivel 1-0 


(X,-X2) - tos2 E < p1- p2 < (X4 -X2) + tos2 Six 
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10.8.4 PRUEBA DE HIPÓTESIS 


Caso: Muestras pequeñas (n<30) 


a) 01 = 0) 
1) Ho: Ma - M2 = do (usualmente do = 0) 
2) Ha: mı- u2< do 
Ha - 2> do 
pa - 2% do 


3) aL: nivel de significancia 
4) Estadístico de prueba y región de rechazo 


t= (Xı-X2)-do distribución T con v = nı + N2 — 2 grados de libertad 


Xı-X2 
1 1 ¿_(M-DS/+(n,-D85 
Sx X = Sp ZES Sp = 
LES n n, nı +n, -2 
Ha Región de rechazo de Ho 


u1- 2< do t< -ta 
u1- 2> do t>ta 
u- p2# do t< -ta2v t> ta 


b) 01 % O3 
1) Ho: a -u2 = do (usualmente do = 0) 
2) Ha: mı- u2< do 
u1- 2> do 
H1- 2% do 


3) a: nivel de significancia 
4) Estadístico de prueba y región de rechazo 


A E mn 
T= ita had , distribución T con v = grados de libertad 
S 2 2 2 
X1-X2 d1 S3 
+ 

n -1 n,-1 
Si S? 
Xı-X2 nı nz 

Ha Región de rechazo de Ho 


u1- 2< do t< -ta 
Ma - 2> do t>ta 
u1- u2#do t< -tu2v t> ta 


ICM ESPOL 


242 Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


Ejemplo. (Caso 0% = 02) 
Se realizó un experimento para comparar la resistencia de dos materiales, obteniéndose los 
siguientes resultados: 


Material n X S 
1 12 85 4 
2 10 81 5 
Suponga que son muestras aleatorias independientes y que provienen de poblaciones normales 
con varianzas desconocidas pero que se pueden considerar iguales. 


Pruebe con 5% de significancia que la resistencia del material uno excede a la resistencia del 
material dos en dos unidades. 


Solución 

1) Ho: H1 - 2 =2 
2) Ha: Ma - M2 >2 
3) a = 0.05 


4) Estadístico de prueba 


T= (X1 —X2) — do 
S 


, distribución T con v = M1 + N2 — 2 grados de libertad 
X1-X2 

Región de rechazo de Ho 

a = 0.05, v = N1 + N2 — 2 = 12 +10 -2=20 > toos = 1.725 (Tabla T) 
t> 1.725 


Cálculo del valor del estadístico de prueba 
s2 a (ni T DS? + (n2 = msi Z (12 == ya? + (10 En m5? 
P nı +n; -2 12+10-2 


1 1 f1 1 
S- - =S, |-—+— = Vy20.05,|-—+-— = 1.917 
Xı-X2 `P An n 12 10 


i (X1-X2)- do _ (85-81 -2 
Six 1.917 

t no cae en la región de rechazo de Ho por lo tanto, con 5% de significancia, no hay 

evidencia suficiente para rechazar que los materiales tiene igual resistencia. 


= 20.05 


= 1.043 
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Ejemplo. (Caso 0% + 02) 
Se realizó un experimento para comparar la resistencia de dos materiales, obteniéndose los 
siguientes resultados: 


Material n X s? 
1 15 3.84 3.07 
2 12 1.49 0.80 


Suponga que son muestras aleatorias independientes y que provienen de poblaciones normales 
con varianzas desconocidas, suponer diferentes. 


Encuentre un intervalo de confianza de 95% para la diferencia de las medias poblacionales 
H1 - Ha. 
Solución 


3.07 0.80 a 
15 12 - 


si) a Es] E 
n 15) (12 


+ 
n, -1 


1-a=0.95 > al2 = 0.025, v=21, > tojz = to.025 = 2.08 (Tabla T) 


2 2 
Ss.  = [Si S2 _ [3.07 0.80 _, 5, 
X-X Ain m 15 12 


Sustituimos en la fórmula respectiva: 


15-1 12-1 


(X, E X2) - tos Six < M1 - Ha < (X,- X2) + tu E 
(3.84 - 1.49) - 2.08(0.521) < u1 - u2 < (3.84 - 1.49) + 2.08(0.521) 
1.266 < u1 - u2 < 3.434 


Por lo tanto, se puede afirmar con una confianza de 95% que la diferencia de las 
medias de la resistencia de los dos materiales está entre 1.266 y 3.434 


EJERCICIOS 


De dos procesos de producción 1 y 2, se tomaron dos muestras aleatorias independientes y se 
obtuvieron los siguientes resultados del tiempo de producción de los artículos. 

Muestra 1: 14, 10, 8, 12 

Muestra 2: 12, 9, 7, 10, 6 
Suponga que las poblaciones tienen distribución normal con varianzas aproximadamente iguales 


a) Encuentre un intervalo de confianza de 95% para m- a 
b) Pruebe con 5% de significancia que p> u2 
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MATLAB 
Inferencias relacionadas con dos medias. Muestras pequeñas. Varianzas iguales 


>> x=normrnd(22,3,1,10) Muestra aleatoria X: una fila con 10 cols. X ~ N(22, 3) 
x= 
20.3213 23.3310 19.1503 24.3435 23.7069 
19.5349 21.2032 18.4367 15.3930 24.9590 


>> y=normrnd(20,3,1,15) Muestra aleatoria Y: una fila con 15 cols. Y — N(20, 3) 


18.4441 20.9821 20.7022 20.0644 16.9882 
17.1586 18.8767 16.4423 16.8323 24.4174 
20.1672 16.3480 19.8763 16.6150 15.9522 


>> [h, p, ci, stats]=ttest2(x, y, 0.05, 1) Prueba Ho: ux = uy vs. Ha: ux > Uy, 
0% =0%, 0,=0.05. Prueba unilateral derecha 


h=1 h =1 > La evidencia es suficiente para rechazar Ho 
p = 0.0193 Valor p de la prueba 
ci = 0.5211 Inf Intervalo de confianza con nivel 1- @ 


stats = tstat: 2.1943 Valor del estadístico de prueba T 
df: 23 grados de libertad 
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10.7 INFERENCIAS PARA LA DIFERENCIA ENTRE DOS 
PROPORCIONES 


CASO: Muestras grandes 
Esta inferencia se utiliza para relacionar las proporciones de dos poblaciones. 


Sean dos poblaciones con distribución binomial de las cuales se toman muestras aleatorias 
independientes para usar su diferencia como una estimación de la diferencia entre las 
proporciones poblacionales. 


Parámetro: pı- p2 Diferencia entre proporciones poblacionales 
Poblaciones con distribución binomial y parámetros pı, P2 desconocidos 
Muestras aleatorias independientes de tamaños N1 y N2 Mayores o iguales a 30 


Estimador: pı- P, Diferencia entre proporciones muestrales 


en donde P1=X1 In, P 2=X2 In2 


Media y varianza del estimador 
Hap E(p1- p2) = E(p1) - E(p2) = E(x1/n1) - E(x2/n>) = 
= 1/n¿E(X1) - 1/n2E(x2) = (1/n1)Nnıpı - (1/m2)n2p» = pı- p2 (estimador insesgado) 


5,5, =MPar Pa = VI) pi + (2) p2] = (DVP) + (CVP) 


= = V(x1/n3) + V(x2/n2) = = z V(x1) wz z VO 
1 


P1%1 + P292 


1 
= vz (MPd) + z (napaqa) = z 
nî nı n2 


Estadístico de Prueba 
- (P1 - P2) - Hop, z (Pa z P2) - (P1 - P2) 
Sp, P1% ES P202 
nı n2 


Por el Teorema del Límite Central tiene distribución normal estándar aproximadamente. 


Con un criterio similar al usado anteriormente para muestras grandes, se puede aproximar la 
varianza poblacional mediante la varianza muestral. 


P1%1 T p2q2 je p,% da P2q2 
nı n2 nı n2 
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10.7.1 INTERVALO DE CONFIANZA 


Con un planteamiento similar al realizado en casos anteriores para muestras grandes: 


z - Pa —P2) - (P1 -P2) 
pıdı de p2q2 
nı n2 


Con probabilidad 1 - &, se cumple la desigualdad: -Zyj2 < Z < Zoo 
Sustituyendo Z y despejando el parámetro de interés pı- p2 se obtiene: 


Definición: Intervalo de confianza para pı- p2 con nivel 1 - aL 


Po, 
n 


Pa < Pa" P2 < (P1- P2) + Zo Pa pez 


(Pa —p,) — Za 
2 1 n2 


Ejemplo 

132 de 200 electores de la región uno favorecen a un candidato, mientras que le son favorables 
90 de 150 electores de la región dos. Suponiendo que las muestras son aleatorias e 
independientes encuentre un intervalo de confianza de 99% para la diferencia entre las 
proporciones de electores que le son favorables en estas dos regiones. 


Solución 
1- a = 0.99 > Zal2 = Zo.005 = 2.575 


Sustituimos en la fórmula anterior: p= X1/n, = 132/200 = 0.66, p= Xə/n2 = 90/150 = 0.6 


TOR -004 < pı- p2 < 


(0.66 - 0.6) - 2.575 


(0.66)(0.34) _ (0.6)(0.4) 
200 150 


(0.66- 0.6) + 2.575 


=> -0.074 < pı- p2 < 0.194 
Con una confianza de 99%, se puede afirmar que la proporción de votantes que favorecen al 
candidato va de 7.74% con una proporción mayor en la región 2, hasta un valor de 19.4% en la 
que la proporción es mayor en la región 1. 


10.7.2 PRUEBA DE HIPÓTESIS 
1) Formular la hipótesis nula: Ho: pı- p2= do (Algún valor especificado. Ej. do=0) 


2) Formular una hipótesis alterna. Elegir una entre: 
Ha: pı- p2< do 
Ha: pı- P2> do 
Ha: pı- P2+ do 
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3) Especificar el nivel de significancia &œ para la prueba 
4) Seleccionar el estadístico de prueba y definir la región de rechazo de Ho 
(P1 —P2)-do 


p1%1 z p2q2 
nı n2 


Z= , con distribución normal estándar aproximadamente 


Adicionalmente: Pad + P292 z= Pa + P292 


nı n2 nı n2 
Ha Región de rechazo de Ho en favor de Ha 
p1- p2< do Z < -Za 
P1- P2> do Z> Za 
p1- P2# do Z < -Za2 V Z > Zoj2 


5) Con los datos de la muestra calcular el valor del estadístico 


6) Si el valor del estadístico de prueba cae en la región de rechazo, la decisión es rechazar Ho 
en favor de Ha. Caso contrario, se dice que no hay evidencia suficiente para rechazar Ho. 


EJERCICIOS 


Un fabricante modificó el proceso de producción de sus artículos para reducir la proporción de 
artículos defectuosos. Para determinar si la modificación fue efectiva el fabricante tomó una 
muestra aleatoria de 200 artículos antes de la modificación y otra muestra aleatoria 
independiente, de 300 artículos después de la modificación, obteniendo respectivamente 108 y 
96 artículos defectuosos. 


a) Encuentre un intervalo de confianza de 98% para la diferencia entre las proporciones de 
artículos defectuosos en ambas poblaciones (antes y después de la modificación) 


b) Realice una prueba de hipótesis de 1% de significancia para probar que la modificación 
realizada en el proceso de producción reduce la proporción de artículos defectuosos. 
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10.8 INFERENCIAS PARA DOS VARIANZAS 


Parámetros: o? ; o? (varianzas poblacionales) 


Poblaciones con distribución normal 

Estimadores: si y si (varianzas muestrales) 
muestras aleatorias independientes de tamaño N1 y N2 
Silo 

Silo 


tiene distribución F, con v1=N1-1, v2= N2- 1 grados de libertad 


Estadístico de prueba: F = 


10.8.1 INTERVALO DE CONFIANZA 


Se especifica un valor de probabilidad 1- a en la distribución F como se muestra en el gráfico 


F- Si lo? 
F. F -S$ los 
1/2 v.w, i2, Y.Y, 
Se tiene 
Paz, wy Š F< F,12, v, v, Con probabilidad 1-a 


Si se sustituye F y se despeja el parámetro de interés se obtiene 


2 2 2 
2 2 2 7 e2 
S3 F a12, V4; V2 O2 S3 Fi a12, Vi) V2 
1 
Con la definición Fa, Var Va ~ se puede escribir: 
Qs Var Vi 


Definición: Intervalo de confianza para 01105 con nivel 1- a 


2 2 2 


F a12, V3, Oy 


2 S 2 = 2 
S F412, ds De 02 S) 


Con v1=n,-1, v2=n,- 1 grados de libertad 
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Ejemplo 
De dos poblaciones con distribuciones normales se han tomado dos muestras aleatorias 
independientes y se obtuvieron: 


Muestra n Xx 
1 10 5.9 4 
2 8 7.1 5 


Encuentre un intervalo para 0105 con un nivel de confianza de 90% 


Solución 

1- a = 0.9 > al2 = 0.05, v¿=10-1=9, v2=8-1=7 
a = Po.o5, 9, 7 = 3.68 (Tabla P) 
Fa12,v,,v, = Fo.o5, 7,9 = 3-29 

Sustituyendo 


2 
< %329 > 0.2222 < Y 


10.8.2 PRUEBA DE HIPÓTESIS 
1) Definir la hipótesis nula Ho: 0 =03 
2) Elegir una Hipótesis alterna: Ha: oí < 0% 
Ha: 0, >0) 
2 2 
Ha: 0, 40, 
3) Seleccionar el nivel de significancia OL 


4) Estadístico de prueba. Se obtiene simplificando oí = 0% 
S ii . 
F= = distribución F con v1 = nı - 1, v2 = n2- 1 grados de libertad 
2 
Región crítica 


Ha Región de rechazo de Ho en favor de Ha 

oi < o3 F < Fi-a 

oi > 0 F>Fo 

oi Ło, F < Faz v F > Foz 
5) Calcular el valor del estadístico de prueba con los datos de la muestra 
6) Decidir 


Ejemplo 
De dos poblaciones con distribuciones normales se han tomado dos muestras aleatorias 
independientes y se obtuvieron: 


Muestra n Xx 
1 10 5.9 
2 8 7.1 


Pruebe con 10% de significancia que las poblaciones tienen varianzas diferentes 
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Solución 

1) Ho: 0, =0% 
2) Ha: 0 % 0% 
3) a =0.1 


4) Estadístico de prueba 
Si l 
F= Sz’ distribución F con v1 = nı- 1, v2 = n2- 1 grados de libertad 
2 
Región crítica 
a= 0.1 > al2 = 0.05, v1=10-1=9, v2=8-1=7 
Fa12, v,, v, = Fo.os, 9, 7 = 3.68 (Tabla F) 


1 1 1 
= = 0.304 
3.29 


Filal2, v, v T Fo.9s, 9,7 F = F 
al2, vi; V2 0.05, 7, 9 


Región de rechazo de Ho en favor de Ha 
F < 0.304 v F > 3.68 


Fo as Fo.os 


Cálculo del estadístico de prueba 
s2 
= 2=415 = 0.8 
S3 
Decisión: No hay evidencia suficiente en la muestra para rechazar la hipótesis que las 


varianzas poblacionales son iguales 


EJERCICIOS 


Las siguientes son las calificaciones obtenidas en el examen final de una materia por dos grupos 
de 8 mujeres y 8 hombres: 


Hombres | 55 68 70 66 91 78 81 
Mujeres 73 65 74 80 76 63 82 


Suponiendo que los datos pueden considerarse como muestras aleatorias independientes 
tomadas de poblaciones con distribución normal, pruebe con 5% de significancia que la varianza 
de las calificaciones de los hombres es mayor a la de las mujeres. 
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10.9 PRUEBA PARA LA DIFERENCIA DE MEDIAS CON 
MUESTRAS PAREADAS 


Esta prueba permite comparar las medias de dos poblaciones usando dos muestras aleatorias 
que no son independientes. Esto significa que las observaciones de una muestra influyen en 
los resultados de la otra. 


Suponga que se quiere conocer la opinión acerca de la calidad de dos marcas de cierto 
producto. Si se eligiera una muestra aleatoria del producto de la una marca y se la probara con 
un grupo de personas, y se eligiera una muestra aleatoria del producto de la otra marca y se las 
probara con otro grupo de personas, entonces las muestras serían independientes. 


Pero, si se las muestras aleatorias de las dos marcas del producto se las probase con el mismo 
grupo de personas, entonces los resultados obtenidos ya no son independientes pues la opinión 
de cada persona respecto a la una marca, afecta a su opinión acerca de la otra marca. Este es 
un caso de muestras pareadas. 


Supongamos dos poblaciones acerca de las cuales es de de interés estimar el valor de la 
diferencia entre estas medias poblacionales. De estas poblaciones se toman muestras aleatorias 
pareadas. Al no ser muestras independientes, no se puede usar como estimador la diferencia de 
las medias muestrales, siendo necesario definir otro estadístico. 


Parámetro: u1- M2 

n: Tamaño de la muestra pareada 

Xı: Observaciones obtenidas en la muestra tomada de la población 1 
X2: Observaciones obtenidas en la muestra tomada de la población 2 
Di = X1; - X2; , 1=1, 2, ..., N: Diferencias entre observaciones 

D; son variables aleatorias independientes. 

Estimador D: media de las diferencias entre las observaciones 


as 1 n . 1 a mx 
D=“YD, con varianza Sí =>) (D; - D}? 
ná nta 


D es un estimador insesgado del parámetro: 


D = E[D¡] = E[X,; - X2; ] = E[X1;] - ElX2;]= pa - p2 


10.9.1 PRUEBA DE HIPÓTESIS 


1) Ho: u1- u2 = do (algún valor especificado, por ejemplo 0) 


2) Ha: u1- u2 < do 


Ha - u2 > do 

a - u2 =+ do 
3) q: nivel de significancia 
4) Estadístico de prueba 
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Caso: N>30 
Z- D-do 
S; 
vn 


Con distribución aproximadamente normal estándar por el Teorema del Límite Central 


Caso: N <30. Suponer poblaciones con distribución normal aproximadamente 


Con distribución T con v = n -1 grados de libertad 


Ejemplo 
Los siguientes datos corresponden a un estudio de las horas perdidas mensualmente por 
accidentes de trabajo en 6 fábricas antes y después de implantar un programa de seguridad 
industrial. 


Antes Después 

(horas perdidas) (horas perdidas) 
45 36 

73 60 

46 44 

39 29 

17 11 

30 32 


Suponiendo que la población es normal, probar con 5% de significancia que el programa 
es eficaz. 


Solución 
Sean p4 media de las horas perdidas antes del programa 
u2 media de las horas perdidas después del programa 


Se desea probar que M1 > u2 > m- H2>0 
1) Ho: H1-H2=0 


2) Ha: u1- 2> 0 
3) a = 0.05 


4) Estadístico de prueba, n < 30 


Distribución T con v = n -1 grados de libertad 


ta = to.os = 2.015, con v=n-1=5 grados de libertad 


Región de rechazo para Ho: t> 2.015 
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= Š [(45-36) + (73-60) + ... ] = 6.335 


n == 
s5= S (d; d)? =Š [(9-5.5)? + (13-5.5)' + ...] =30.6666 
i=1 


n-15 
s;= v30.6666 = 5.5377 


_6.335-0 
— 5.5377 
J6 
Decisión: 
Se rechaza Ho en favor de Ha, es decir, con una significancia de 5% se puede afirmar 
que el programa si es eficaz 


= 2.8022 > 2.015 


EJERCICIOS 


1) Los siguientes datos corresponden a la frecuencia cardiaca de un grupo de 6 personas 
medida antes y después de haberse sometido a un tratamiento: 

Antes: 83, 78, 91, 87, 85, 84 

Después: 76, 81, 88, 86, 83, 87 


Pruebe con 5% de significancia que este tratamiento no varia la frecuencia cardiaca de las 
personas que lo toman. Suponga que la población es normal 


2) Se eligieron 6 trabajadores para realizar una tarea, antes y después de aplicar una nueva 
técnica, obteniéndose los siguientes resultados en horas: 


8y 6, 10y7, 8y8, 10y8, 8y7, 9y7 


Con un nivel de significancia de 5% pruebe si la nueva técnica es eficaz 


MATLAB 


Prueba de hipótesis relacionada con muestras pareadas, n < 30 


>> antes = [45 73 46 39 17 30]; Datos “antes” 
>> despues = [36 60 44 29 11 32]; Datos “después” 
>> d=antes - despues Vector de diferencias 
d= 
9133210 6 -2 
>> [h, p, ci, t] = ttest(d, 0, 0.05, 1) Prueba Ho: 1- M2=0 vs. Ho: y1- H2>0 
a = 0.1. Prueba unilateral derecha 


h=0 > La evidencia no es suficiente para rechazar Ho 


0.0190 Valor p de la prueba 
ci = 
1.7778 Inf Intervalo de confianza para d 


tstat: 2.8014 Valor del estadístico de prueba 
df: 5 Grados de libertad 
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10.10 TABLAS DE CONTINGENCIA 


Esta prueba se puede usar para determinar la independencia entre dos métodos o factores 
involucrados en la obtención de datos. 


Para aplicar esta prueba se organiza una tabla, colocando en las filas y columnas los 
resultados obtenidos con ambos factores. 


Terminología 
n: Cantidad de observaciones en la muestra 
r: Cantidad de filas 
C: Cantidad de columnas 
ri: Total de resultados en la fila i 
Cj: Total de resultados en la columna j 
Ni, j: Total de resultados observados en la fila i, columna j (son los datos muestrales) 
ej, j: Total de resultados esperados en la fila I, columna] (se obtiene con la hipótesis) 


Obtención de la frecuencia esperada €j ¡ 


Definiciones 

pi: Probabilidad que un resultado pertenezca a la fila i 
p=r/n 

pj: Probabilidad que un resultado pertenezca a la columna j 
p=c¡/n 


Pi, j: Probabilidad que un resultado pertenezca a la fila i, columna j 


Hipótesis que se debe probar 
Que los resultados son independientes de entre filas y columnas 


Ho: Pi,¡= Pi Pj 
Si esta hipótesis fuese cierta se tendría que la frecuencia esperada sería 
E a A 5C 
€, = pij n = pi pin = (Jn = 
n n n 


Definición: Estadístico de prueba para tablas de contingencia 


pra A tiene distribución Ji-cuadrado con v=(r-1)(c-1) grados de libertad 


Dado el nivel de significancia æ para la prueba, si las diferencias entre la frecuencia observada 
ni,j y la frecuencia esperada eij son significativas, entonces el estadístico de prueba caerá 


en la región de rechazo de la hipótesis nula H, la cual propone independencia entre resultados. 


Región de rechazo de Ho 
Si x > x se rechaza Ho = Los resultados no son independientes entre filas y columnas 
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10.10.1 PRUEBA DE HIPÓTESIS 


1) Ho:  Vij(pPij= Pi pj) (los resultados son independientes 
entre filas y columnas) 
2) Ha: ]Ho (los resultados no son independientes) 
3) a: nivel de significancia de la prueba 
4) Con los valores de AL y v= (r - 1)(C - 1) se define la región de rechazo de Ho 
2 

o 

5) Calcular el valor del estadístico de prueba 
2 r c (n,, -e,¡) a ; . . 
x= Y Y AR, distribución Ji-cuadrado con v=(r-1)(c-1) grados de libertad 
i=1 j=1 es 


Ejemplo 

Los siguientes datos corresponden a la cantidad de errores de producción de artículos en una 
empresa, organizados por tipo de error (columnas 1, 2, 3, 4) y por el equipo de obreros que los 
fabricó (filas 1, 2, 3) 


1 
1 |15 
2 |26 
3 |23 


Pruebe con 5% de significancia que la cantidad de errores en la producción de los artículos es 
independiente del tipo de error y del equipo que los fabricó 


Solución 
Completamos el cuadro colocando en los bordes las sumas de filas y columnas y en la parte 
inferior de cada celda la frecuencia esperada calculada con la fórmula: 


fe 


ij n 
€11 = 1, C1 / Nn = (94)(74)/309 = 22.51 
€12 = rı C2 Í n = (94)(69)/309 = 20.99 
€1,3 = fı C3 | n = (94)(128)/309 = 38.94 
€14 = fı C4 Í n = (94)(38)/309 = 11.56 
€21 = r2 C1 / N = (96)(74)/309 = 22.99 
.. etc 


Tabulación 
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Definimos la región de rechazo 
a =0.05, v = (r - 1)(C - 1) = (3)(2) = 6 => x% = ios = 12.54 


Rechazar Ho si yx? > 12.54 


Cálculo del estadístico de prueba 


r E (n-e) (15-22.59? (21-20.99)? (45-38.94)? 
2_ NY i,j ij? _ . A ; 
X — H 


e.. 22.51 


EE 7 20.99 


38.94 


Decisión 


ICM ESPOL 


(Tabla y?) 


+... =19.18 


El valor del estadístico de prueba cae en la región de rechazo de Ho, por lo tanto se concluye 
que no hay independencia entre el tipo de error en los artículos producidos y el equipo de 


obreros que los fabricó. 


EJERCICIOS 


1) Los siguientes datos corresponden a las calificaciones en tres materias (columnas 1, 2, 3) 


obtenidas por cuatro estudiantes (filas 1, 2, 3, 4) 


1 2 3 
1 73 68 56 
2 65 70 50 
3 70 73 55 
4 68 71 54 


Pruebe con 5% de significancia que no hay dependencia entre las calificaciones obtenidas en 


las materias y los estudiantes 


2) En una muestra aleatoria de 100 ciudadanos de Guayaquil, se los clasificó por su ocupación: 
obrero, estudiante, profesional, y se les consultó si están a favor o en contra de la integración 


de un organismo de justicia, propuesto por el Congreso. 
Se obtuvieron los siguientes datos: 


Proponga y pruebe una hipótesis para demostrar, con 5% de significancia, que la opinión de los 


Obrero Estudiante Profesional 
A favor 10 16 14 
En contra 12 26 22 


ciudadanos es independiente de su ocupación. 
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MATLAB 


Prueba con tablas de contingencia 


>> n=[15 21 45 13; 26 31 34 5; 33 17 49 20] Frecuencias observadas 
n= 
13 
5 
20 


Suma de filas 


>> c=sum(t') Suma de columnas 
as 
94 96 119 


>> e=(c' *(r))I(sum(sum(t))) Frecuencias esperadas 
ez 
22.5113 20.9903 38.9385 11.5599 
22.9903 21.4369 39.7670 11.8058 
28.4984 26.5728 49.2945 14.6343 


>> ji2=sum(sum((n-e).^2./le)) Valor del estadístico de prueba 
ji2 = 
19.1780 


>> vc=chi2inv(0.95,6) Valor crítico de rechazo 
vc = 
12.5916 


Conclusión: El valor del estadístico cae en la región de rechazo de Ho 
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10.11 PRUEBAS DE BONDAD DE AJUSTE 


Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una 
distribución especificada o supuesta. 


Sean X: variable aleatoria poblacional 
fo(x) la distribución (o densidad) de probabilidad especificada o supuesta para X 


Se desea probar la hipótesis: Ho: f(x) = fo(x) 
En contraste con la hipótesis alterna: Ha: THo (negación de Ho) 


10.11.1 PRUEBA JI-CUADRADO 


Esta prueba es aplicable para variables aleatorias discretas o continuas 


Sea una muestra aleatoria de tamaño N tomada de una población con una distribución 
especificada fo(X) que es de interés verificar. 


Suponer que las observaciones de la muestra están agrupadas en k clases, siendo Ni la 
cantidad de observaciones en cada clase i = 1, 2, ..., K 


Con el modelo especificado fo(X) se puede calcular la probabilidad pi que un dato cualquiera 
pertenezca a una clase i. 


Con este valor de probabilidad se puede encontrar la frecuencia esperada €j para la clase i, es 
decir, la cantidad de datos que según el modelo propuesto deberían estar incluidos en la clase i: 


ei = pin, ¡=1,2,..,k 

Tenemos entonces dos valores de frecuencia para cada clase i 
ni: frecuencia observada (corresponde a los datos de la muestra) 
ei: frecuencia esperada (corresponde al modelo propuesto) 


La teoría estadística demuestra que la siguiente variable es apropiada para realizar una prueba 
de bondad de ajuste: 


Definición: Estadístico para la prueba de bondad de ajuste Ji-cuadrado 


2_ (ni -ejY 


, distribución Ji-cuadrado con v = k-1 grados de libertad 
i=1  €i 
Es una condición necesaria para aplicar esta prueba que Vi(ej>5) 


Dado un nivel de significancia aL se define un valor crítico Ye para el rechazo de la hipótesis 
propuesta Ho: f(x) = fo(x). 


Si las frecuencias observadas no difieren significativamente de las frecuencias esperadas 
calculadas con el modelo propuesto, entonces el valor de estadístico de prueba x será cercano 
a cero. Pero si estas diferencias son significativas, entonces el valor del estadístico y? estará en 
la región de rechazo de Ho: 


2 
X> Xa 
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Región de rechazo de Ho 


Ejemplo 
Se ha tomado una muestra aleatoria de 40 baterías y se ha registrado su duración en años. 
Estos resultados se los ha agrupado en 7 clases, como se muestra en el siguiente cuadro 
clase (duración) frecuencia observada (Ni) 

1.45 — 1.95 

1.95 — 2.45 

2.45 — 2.95 

2.95 — 3.45 

3.45 — 3.95 

3.95 — 4.45 

4.45 — 4.95 


Verificar con 5% de significancia que la duración en años de las baterías producidas por este 
fabricante tiene duración distribuida normalmente con media 3.5 y desviación estándar 0.7 


Nota: En general, si no se especifican los parámetros del modelo propuesto, deben estimarse a 
partir de los datos de la muestra 


Solución 
Sea X: duración en años (variable aleatoria contínua) 


1) Ho: f(x) = N(3.5, 0.7) (distribución normal, 1=3.5, 0=0.7) 
2) Ha:  ]Ho 
3) a = 0.05 


Cálculo de la probabilidad correspondiente a cada intervalo 
pı = P(X<1.95) = P(Z<(1.95 — 3.5)/0.7) = 0.0136 
p2 = P(1.95<X<2.45) = P((1.95 — 3.5)/0.7 <Z< (2.45 — 3.5)/0.7) = 0.0532 
p3 = P(2.45<X<2.95) = P((2.45 — 3.5)/0.7 <Z< (2.95 — 3.5)/0.7) = 0.135 
... (etc) 


Cálculo de las frecuencias esperadas 
e, = pı N = 0.0136 (40) = 0.5 
e, = p2 N = 0.0532 (40) = 2.1 
ez = p3 N = 0.135 (40) = 5.4 
... (etc) 
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Resumen de resultados 
Duración (años) frecuencia observada (Ni) frecuencia esperada (ei) 
1.45 — 1.95 
1.95 — 2.45 
2.45 — 2.95 
2.95 — 3.45 
3.45 — 3.95 
3.95 — 4.45 
4.45 - 4.95 


Es necesario que se cumpla la condición Vvi(€ej>5) por lo que se deben agrupar clases 
adyacentes. Como resultado se tienen cuatro clases: k=4 


Duración (años) frecuencia observada (Ni) frecuencia esperada (ei) 
1.45 — 2.95 

2.95 — 3.45 15 

3.45 — 3.95 10 

3.95 — 4.95 8 


Ahora se puede definir la región de rechazo de Ho 


a =0.05, V=k-1=3,> X% o5 = 7.815 (Tabla xô 


Rechazar Ho si x? > 7.815 


5) Cálculo del estadístico de prueba 


k In. _a.)2 
s y Mi ej)” _ [(7-8.5) ,(15-10.3)%  (10-10.7? _ (8 -10.5)? 


8.5 10.3 10.7 10.5 


=3.05 


i=1  €j 


6) Decisión 
Como 3.05 no es mayor a 7.815, se dice que no hay evidencia suficiente para rechazar 
el modelo propuesto para la población. 


EJERCICIO 
El siguiente cuadro muestra el registro del tiempo en horas que duran encendidos hasta que 
fallan una muestra de 200 focos de cierta marca 

Tiempo Cantidad 

en horas de focos 


0 - 250 82 
250 - 500 45 
500 - 750 34 
750-1000 15 

1000 - 1250 10 
1250 - 1500 6 
1500 - 1750 4 
1750 - 2000 3 
2000 - 2250 1 


Con 10% de significancia verifique la hipótesis que el tiempo de duración de los focos tiene 
distribución exponencial. Debido a que no se especifica el parámetro del modelo propuesto, debe 
estimarlo a partir de los datos de la muestra (calcule la media muestral con la fórmula para datos 
agrupados) 
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MATLAB 


Colocar la densidad normal sobre el histograma de la muestra 

Datos de la muestra 

>>x=[5.73 5.01 6.89 8.28 5.43 5.01 5.85 7.12 5.00 4.51 6.03 6.10 6.87 ... 
5.36 5.99 5.59 6.08 8.34 5.35 4.31 6.85 4.93 6.25 5.32 6.94 6.97 ... 
5.91 3.32 6.38 8.43 7.62 3.98 6.08 5.24 4.76 4.47 6.60 5.59 6.27 5.68]; 

Tabulación de frecuencia en siete clases 

>> f = hist(x,7) 


t= 
2 4 9 11 9 2 


Graficar el histograma y la distribución normal 


>> histfit(x, 7) 
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10.11.2 PRUEBA DE KOLMOGOROV - SMIRNOV (K-S) 


Esta prueba se usa para probar modelos de probabilidad con variables aleatorias continuas. 


Es de especial interés para muestras pequeñas en las cuales por no estar los datos agrupados 
no es factible aplicar la prueba de bondad de ajuste ji-cuadrado. 


Sea X: variable aleatoria continua 
fo(x) función de densidad de probabilidad especificada o supuesta para X 


Se desea probar la hipótesis: Ho: f(x) = fo(x) 
En contraste con la hipótesis alterna: Ha: THo (Negación de Ho) 


Sea una muestra aleatoria de tamaño n tomada de una población con una distribución 
especificada fo(x) que es de interés verificar: 
X1; X2; «1. ¡Xn 


Las observaciones se las ordenadas en forma creciente: 
X(1) X(2) das X(n) 


Con los valores de x se obtienen valores de la siguiente función Sn(x) 


Definición: Función de distribución acumulada empírica 


0, X<X(1) 


Sn(x) =31/n, X(i) <x< X(i+1) 


1 x2 X(n) 


Sea Fo(x) la función de distribución acumulada correspondiente al modelo propuesto fy(x) 
Foo) = P(X < x) 


Con los valores de x se obtienen valores de la función Fo(x). 


Se tabulan los valores calculados de Sn(x) y Fo(x). Entonces se utiliza el estadístico para esta 
prueba definido de la siguiente forma: 


Definición: Estadístico de prueba K-S (Kolmogorov-Smirnov) 


Dn = max [Sn(x:;) P Fo(x;)| , i=1, 2, "N 


Si se especifica el nivel de significancia AL se puede construir la región de rechazo para la prueba 


Región de rechazo de Ho 
Sea: D, valor crítico tomado de la tabla para la prueba K-S 


Rechazar Ho si Dn > D, 


Algunos valores del estadístico D están tabulados en la tabla K-S 
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Ejemplo 
Suponga los siguientes datos obtenidos en una muestra aleatoria: 
7.2, 7.5, 8.1 9.6, 9.1, 8.1, 7.6, 6.8 
Pruebe con 5% de significancia que provienen de una población con distribución normal, con 
media 8 y varianza 1: X ~ N(8, 1°) 


Solución 
Ho: f(x) = N(8, 1°) (Hipótesis que interesa probar) 
Ha:  |Ho 
a = 0.05 


Región de rechazo de Ho 
a = 0.05, n = 8 > Do.os = 0.457 (Tabla K-S) 
Rechazar Ho si Dn > 0.457 


Se colocan en un cuadro los datos ordenados de la muestra X(i) 


Se escriben los valores de la distribución empírica: S(x) 


Se calculan los valores de Fo(X) según el modelo propuesto 


x¡-8 


Fo(Xi) = P(X<X¡) = P(Z< ) (Distribución normal estándar acumulada) 


Se usan los valores de X; en el orden escrito en la tabla 
Fo(6,8) = P(X<6.8) = P(Z< _= si = F(-1.2) = 0.1151 (Tabla Z) 


Fo(7.2) = P(X<7.2) = P(Z< AS = F(-0.8) = 0.2119 


etc. 


Se escriben los resultados en la tabla y se calcula Dn 


x; (ordenados) | Sh(x) [Sn (x): Fo] 
6.8 1/8 0.0099 
7.2 2/8 0.0381 
7.5 3/8 0.0665 
7.6 4/8 0,1554 
8.1 5/8 0.0852 
8.1 6/8 0.2102 
9.1 7/8 0.0107 
9.6 1 0.0548 


INIIAI AJOIN e | = 


Valor del estadístico de prueba 
Dn = max |Sn(x;) - Fo(X)| , 1=1, 2, ..., n 
Dn = 0.2102 


Decisión 
Dn no cae en la región de rechazo, por lo tanto los datos de la muestra no 
proporcionan evidencia suficiente para rechazar el modelo propuesto para la población 
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EJERCICIOS 


1) El fabricante de un artículo afirma que la resistencia media de su producto tiene distribución 
normal con media 4.5 y con desviación estándar de 0.7. Una muestra aleatoria 6 observaciones 
produjo los siguientes resultados: 5.2 4.3 3.7 3.9 5.4 4.9 


Realice la prueba de bondad de ajuste K-S, con 5% de significancia para determinar si los datos 
obtenidos en la muestra provienen de la población especificada. 


2) La siguiente es una muestra del tiempo en horas que funciona un dispositivo electrónico de 
control hasta que se presenta una falla y recibe mantenimiento: 


199.4 73.2 40.5 39.2 36.0 24.9 135 98 5.7 2.5 


Realice la prueba de bondad de ajuste K-S, con 5% de significancia para determinar si los datos 
obtenidos en la muestra provienen de una población con distribución exponencial. 
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MATLAB 
Prueba de bondad de ajuste K - S 


>> x=[7.2 7.5 8.1 9.6 9.1 8.1 7.6 6.8]; Vector con los datos de una muestra 

>> cdfplot(x) Gráfico de la distribución empírica acumulada 

>> z=5: 0.1: 10; Puntos para la distribución normal acumulada 

>> f=znormcdf(z, 8, 1); Valores de la distribución normal acumulada con 
el modelo propuesto Ho: X - N(8, 1?) 

>> hold on, plot(z, f, 'k') Superponer el gráfico del modelo propuesto 


Empirical CDF 
4 > ai > 


09 Modelo propuesto Ho: X N(8, 12) 


0.8 


Distribución empírica 


>> x = sort(x) Ordenamiento de los datos de la muestra 
x= 
6.8000 7.2000 7.5000 7.6000 8.1000 8.1000 9.1000 9.6000 
>> sn = 1/8: 1/8: 1 Distribución acumulada empírica 
sn = 
0.1250 0.2500 0.3750 0.5000 0.6250 0.7500 0.8750 1.0000 
>> f = normcdf(x,8,1) Distribución acumulada normal Ho: X ~ N(8, 1°) 
f= 
0.1151 0.2119 0.3085 0.3446 0.5398 0.5398 0.8643 0.9452 
>> dn = max(sn - f) Valor del estadístico Dn: la mayor diferencia 
dn= 
0.2102 


Prueba de bondad de ajuste usando directamente una función especializada de MATLAB 


>> x=[7.2 7.5 8.1 9.6 9.1 8.1 7.6 6.8]; Vector con datos de la muestra 
>> x=sort(x); Datos ordenados 
>> f=znormcdf(x,8,1); Valores con el modelo propuesto: Ho: X ~ N(8, 1?) 


>> [h,p,ksstat,vc]=kstest(x,[x' f' ], 0.05,0) Prueba de bondad de ajusta K-S 
x’ f? son dos columnas con el modelo 
h=0 h=0: No se rechaza el modelo 
p = 0.8254 Valor p de la prueba 
ksstat = 0.2102 Valor del estadístico de prueba 


vc= 0.4543 Valor crítico para la región de rechazo 
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10.12 ANÁLISIS DE VARIANZA 


Esta prueba se utiliza para determinar si las medias muestrales provienen de poblaciones con 
medias iguales, cuando hay más de dos poblaciones en estudio. 


El análisis de varianza (ANOVA) permite comparar simultáneamente todas las medias, 
evitando tener que realizar pruebas en grupos de dos con las técnicas vistas anteriormente. 


La comparación de las medias muestrales se basa en las varianzas muestrales 


Suposiciones necesarias para el análisis de varianza 
1) Las poblaciones tienen distribución normal 
2) Las poblaciones tienen varianzas iguales 
3) Las muestras son independientes 


Definiciones: 


Tratamiento: Es la fuente de datos cuya variación proporciona las observaciones. 


Sean. K: Número de tratamientos 
Número total de observaciones en todos los tratamientos combinados 
Número total de observaciones en cada tratamiento j= 1, 2, ..., K 
Es la i-esima observación del tratamiento j 
Media muestral del tratamiento j (incluye las observaciones de cada 
tratamiento) 


Media muestral general (incluye a todas las observaciones de todos los 
tratamientos) 


Variación Total: Es la variación total combinada de las observaciones de todos los 
tratamientos con respecto a la media general 


Media muestral general: 


Variación total: q X)? (Suma cuadrática total) 


Variación de tratamientos: Es la variación atribuida a los efectos de los tratamientos 


l ong 1g 
Media muestral del tratamiento j: Xj ==) X; j 
n 24% 
j i=1 


K e 
Variación de tratamientos: SCTr = Y ni(X -X)? (Suma cuadrática de tratamientos) 
j=1 
Variación aleatoria o error: Es la variación dentro de cada tratamiento debido a errores en el 
experimento. 
Variación aleatoria o error: SCE = SCT - SCTr (Suma cuadrática del error) 


La ecuación SCT = SCTr + SCE separa la variación total en dos componentes: el primero 
corresponde a la variación atribuida a los tratamientos y el segundo es la variación atribuida a 
la aleatoriedad o errores del experimento 


SCTr tiene k- 1 grados de libertad (varianza ponderada con k tratamientos) 
SCE tiene n-k grados de libertad (existen n datos y k tratamientos) 
SCT tiene n- 1 grados de libertad (suma de grados de libertad de SCTr y SCE) 


Si cada uno se divide por el número de grados de libertad se obtienen los cuadrados medios 


Todos estos resultados se los ordena en un cuadro denominado tabla de análisis de varianza 
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10.12.1 TABLA ANOVA (ANÁLISIS DE VARIANZA) 


Fuente de Grados de Suma de Cuadrados F 

variación libertad cuadrados medios A 
Tratamiento k-1 SCTr SCTrI(k - 1) (SCTr/(k - 1)/(SCE/( n-k)) 
Error n-k SCE SCE/( n - k) 

Total n-1 scT 


El último cociente es el valor de una variable que tiene distribución F. Este estadístico se usa 
para la prueba de hipótesis 


10.12.2 PRUEBA DE HIPÓTESIS 


1) Hipotesis nula Ho: u1 = p2 =... = uk (las medias poblacionales son iguales) 
2) Hipótesis alterna: Ha: ] Ho (al menos dos medias son iguales) 
3) Definir el nivel de significancia de la prueba OL 
4) Elegir el estadístico de prueba: Distribución F con ví=k-1, v2=N-k g.l. 
Definir la región de rechazo de Ho 
5) Calcular Fo 
6) Decidir 


Ejemplo 

Para comparar las calificaciones promedio que obtienen los estudiantes en cierta materia que 
la imparten cuatro profesores, se eligieron 32 estudiantes que deben tomar esta materia y se 
los distribuyó aleatoriamente en los cuatro paralelos asignados a los cuatro profesores. 


Al finalizar el semestre los 32 estudiantes obtuvieron las siguientes calificaciones 


Profesor A | Profesor B | Profesor C | Profesor D 
87 
82 
92 
72 
45 
74 
85 
93 


Con una significancia de 5% determine si existe evidencia de que hay diferencia en las 
calificaciones promedio entre los cuatro paralelos. 


1) Hipotesis nula Ho: 1 = u2 = u3 = u4 (Las 4 medias de las notas son iguales) 
2) Hipótesis alterna: Ha: | Ho (Al menos en dos paralelos son diferentes) 
3) Nivel de significancia œ = 0.05 
4) Estadístico de prueba 
F con v1=4-1=3, v2=32-4=28 g.l. 
Región de rechazo 
Fa,vv = Fo.os, 3, 28 = 2-95 (tabla F) 


Rechazar Ho si Fo > 2.95 
Calcular Fo 


= Eh a 1 
X=" YX; =} Y Xij =- (68 +90 +... +67 +53) = 71.7188 
n ji 325311 32 


k n = 
SCT = Y Y (X; j — X)? = (68 - 71.7188)? + (90 — 71.7188)? + ... = 5494.5 
j=1i=1 
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n 
Xı = LS ka = l 68 +90+...+64 +71) =73 
nia 8 


— a 1 
X2 = 2 X;2 = = (80 +73 +... + 63 + 60) = 65.875 
miia 8 


= 1% 1 
X3 == Xiz = g (67 +82+...+85 +93) = 78.75 


M3 ¡1 


n, 
X4 = ASi = (56 +80 + ...+ 67 +53) = 69.25 
ña ja 8 


ko _ = 

SCTr = Y n¡(X; - X}? = 8(73 - 71.7188)” + 8(65.875 - 71.7188)” + 
j=1 

SCE = SCT - SCTr = 5494.5 - 730.6 = 4763.9 


SCTr 730.6 


2k1_2 3 _ 
Fo = -SCE ~ 7763.9 o: 


n-k 28 


Decisión: Fo no cae en la región de rechazo. Por lo tanto no se puede rechazar la 
hipótesis de que las medias de las calificaciones de los cuatro paralelos son iguales 


EJERCICIO 


Para comparar la efectividad de cuatro tipos de fertilizantes para cierto tipo de producto, se 
dividió una zona de cultivo en veinte parcelas de igual tamaño y se administraron cada uno de 
los fertilizantes en cinco parcelas elegidas aleatoriamente. 


Al finalizar el periodo de cultivo se registraron las cantidades del producto obtenidas en las 
parcelas asignadas a cada tipo de fertilizante con los siguientes resultados, en las unidades de 
medida que corresponda: 


Fertilizante A Fertilizante B Fertilizante C Fertilizante D 
27 26 24 23 
21 23 26 27 
24 20 27 26 
23 26 22 23 
28 23 24 25 


Con una significancia de 5% determine si existe evidencia de que hay diferencia en las 
cantidades promedio del producto que se obtuvieron con los cuatro tipos de fertilizante. 
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MATLAB 


Análisis de varianza 
Definición de la matriz de datos. Cada columna es un tratamiento (compare con el ejemplo) 


>> notas=[ 68 80 87 56; 90 73 82 80; 67 68 92 71;85 67 72 91; ... 
86 49 45 80; 53 67 74 56; 64 63 85 67;71 60 93 53] 


>> [p, tabla, stats] =anoval(notas, ('A','B','C','D'Y) Análisis de varianza con rótulos 


0.2546 Valor p de la prueba con F 
tabla = 
'Source' E 'df' 'MS' 'F'  'Prob>F' Tabla ANOVA 
'Columns' [ 730.5938] [3] [243.5313] [1.4314] [0.2546] 
'Error' [4.7639e+003] [28] [170.1384] O O 
"Total" [5.4945e+003] [31] O O O 
stats = 
means: [73 65.8750 78.7500 69.2500] Medias de los tratamientos 
df: 28 Grados de libertad 
s: 13.0437 Error estándar 


Adicionalmente MATLAB muestra la tabla ANOVA en un formato estándar 


ANOYA Table 
Source 55 HS E Prob>EF 


Columns 730.59 243.531 1.43 0.2546 
Error 4763.88 170.138 
Total 5494.47 


MATLAB también proporciona los diagramas de caja de los tratamientos 
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11 REGRESIÓN LINEAL SIMPLE 


El propósito de este estudio es proporcionar los conceptos y técnicas para construir modelos 
matemáticos que describan de manera apropiada a un conjunto de datos, cuando la relación es 
de tipo lineal. Estos modelos son útiles para realizar pronósticos. 


Este estudio se denomina análisis de regresión y el objetivo es estimar la ecuación de 
regresión la cual es la recta teórica poblacional (desconocida) de la cual provienen los datos. 


Suponer que se tiene un conjunto de n mediciones u observaciones (X4, Y4), (X2, Y2),.--,(Xn> Yn) 


Estas observaciones provienen de las variables X y Y. La variable X se denomina variable de 
predicción mientras que la variable Y se denomina variable de respuesta. 


Se supondrá que existe una correspondencia de X a Y y el objetivo es modelar esta relación. 


Cada valor y¡ es una observación o el resultado de una medición, por lo tanto pudiesen haber 
otros valores Yi para el mismo valor de Xi. Esto permite entender que Yi es uno de los 


posibles resultados de la variable aleatoria Yi. Una variable aleatoria debe tener una 
distribución de probabilidad. El siguiente gráfico permite visualizar esta suposición: 


Si la relación entre X y Y tiene “tendencia lineal”, lo cual puede reconocerse graficando los 
puntos en una representación que se denomina gráfico de dispersión, entonces es razonable 
proponer un modelo lineal para describir la relación y que tome en cuenta la aleatoriedad de Y 


Definición: Modelo de regresión lineal probabilista (modelo poblacional desconocido) 
Y = Bo + B4X +e 
En donde fo y B1 son los parámetros del modelo y € es el componente aleatorio de Y 


Se supondrá que para cada variable aleatoria Y; el componente aleatorio gi tiene la misma 
distribución de probabilidad y que además estos componentes son variables independientes: 


ei ~ N(0, 0?) (distribución normal con media 0 y varianza desconocida 0?) 


Con este planteamiento, el valor esperado de este modelo constituye la recta teórica que 
describe al modelo poblacional desconocido. 


E[Y] = Po + B1 x 


El modelo poblacional teórico tiene dos parámetros Bo (intercepción) y B4 (pendiente) 
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Para comprensión de conceptos se desarrolla paralelamente un ejemplo 


Se desea construir un modelo de regresión para relacionar las calificaciones parcial y 
final en cierta materia, utilizando una muestra aleatoria de 10 estudiantes que han 
tomado esta materia: 


Estudiante 


1 


2 


10 


Nota Parcial 


39 


43 


52 


Nota Final 


65 


75 


75 


Diagrama de dispersión 


X: calificación parcial 


Y: calificación final 


Y: Nota Final 
100 


95} 


90} 


854 


80+ 


75} 


70} 


X: Nota Parcial 


Se observa que al incrementar x (variable de predicción) también se incrementa y (respuesta) 


con una tendencia aproximadamente lineal 


Modelo de regresión lineal poblacional propuesto 


Y = Bo + Bax + e, si ~ N(0, o°), para cada Y; 
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11.1 RECTA DE MÍNIMOS CUADRADOS 


El siguiente procedimiento matemático permite usar los datos dados para construir una recta 
de la cual se obtienen estimadores para los parámetros Bop y P4 de la recta de regresión 
poblacional Bo + fx X, 


Se trata de colocar una recta entre los puntos dados, de la forma mejor balanceada con el 
criterio de hacer que la suma de las distancias de la recta a los puntos sea la menor posible. 
Esta recta se denomina recta de mínimos cuadrados. 

Definición: Recta de mínimos cuadrados 


En donde Bo , Ba son los estimadores de Bo y B4 del modelo poblacional Bo + B4 X 


Para cada valor X; se tiene el dato observado y;, mientras que al evaluar la recta de mínimos 


cuadrados Y =Bp+ $, x con este mismo valor X; se obtiene el valor Y; = Bo +B,X; 


Sea €j = y,—Y,, la diferencia entre estos dos valores. Esta diferencia se denomina el residual. 


Entonces, el criterio de mínimos cuadrados consiste en minimizar e? para todos los puntos. 


El cuadrado puede interpretarse como una manera de cuantificar las diferencias sin importar el 
signo. La verdadera razón es formal y corresponde a la teoría de la estimación estadística. 


Definición: Suma de los cuadrados del error 


SCE = Ye; = yO - y) JW, -Bo -ß,x)? 


SCE es una función con dos variables: Bọ , B4 


Con el procedimiento matemático usual para encontrar su mínimo: 


0SCE_q SCE g 


Bo op 
Después de derivar SCE, igualar a cero y simplificar se llega al sistema de ecuaciones lineales: 


Bon + Ba x = y; 


i=1 ¡=1 
n n 

Boy Xi + Bx? = Y xy: 
¡=1 i=1 i=1 


De donde se obtienen finalmente Bg , B4 para el modelo de mínimos cuadrados: 


y = Bo + B, x . Este modelo puede usarse para realizar pronósticos 
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Obtener la recta de mínimos cuadrados para el ejemplo 


y = Bo + B4 X 

i Xi yi i Xiyi 

39 65 2535 
43 75 3225 
21 52 1092 
64 82 5248 
57 5244 
43 3440 
38 2774 
75 7350 
34 1904 
52 3900 


R|O|O0O|J|O|OM| A OIN] eT 


36712 


10 Ba + 466f, =748 
466 f, + 23934 f, = 36712 


De donde se obtienen B, =35.83, PB, = 0.836 


Recta de mínimos cuadrados: Y = 35.83 + 0.836 x 


Pronosticar la calificación final si la calificación parcial es 50 


y = 35.83 + 0.836 (50) = 77.63 


11.2 COEFICIENTE DE CORRELACIÓN 
Para determinar el tipo de relación lineal entre las variables x y y del modelo de regresión lineal 
se usa el coeficiente de correlación lineal que se define a continuación: 


Para simplificar la escritura se establecen las siguientes definiciones 


qn A ELL 
X= nai y= nai 
n ee n a 
So = $ (xi —x) Syy = X (yi => y) 
i=1 i=1 


Sy 200 -xyi -y) 


Definición: Coeficiente de correlación 


El signo de r es igual al signo de la pendiente Pa de la recta de regresión lineal 


Si el valor de r es cercano a 1 significa que hay una fuerte relación lineal positiva ente x y y 
Si el valor de r es cercano a -1 significa que hay una fuerte relación lineal negativa ente x y y 
Si el valor de r es cercano a 0 significa que hay poca relación lineal ente x y y 
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r=0.9 r=-0.9 


. . + 52) = 46.6 


1 


n 
yi = gg (65+75+...+75)=74.8 
A 


— y)? = [(65 — 74.8)? + (75 — 74.8)? + . . . + (75 — 74.8)?] =1885.6 


. .] = 1855.2 


1855.6 


~ JSxx Syy - /(2218.4)(1885.6) 


El resultado indica una fuerte correlación lineal positiva 


= 0.9071 


11.3 ANÁLISIS DEL MODELO DE REGRESIÓN LINEAL SIMPLE 
Para simplificar la escritura de algunas expresiones de interés, se definen las siguientes 
fórmulas equivalentes que pueden demostrarse algebraicamente desarrollando las sumatorias. 


2 
n n n 
(1) Sa= } (Xi e yx? (E 
¡=1 i=1 n\li=1 
=1 


(2)  Siy= 200 -x)(yi - y) = Ex - (Ex [E] 
2 


n 9 n 2 1 n 
(3)  SCT=Sy= > (y; -y)”= 2yi (En 
i=1 i= i 


i=1 
n = 
4  SCE= -9:2 O 
(4) 20 9i) YY T Sxx 
n —2 Siy 
6)  SCR= $ (y¡ - y) Ea 
i=1 XX 
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Demostración de (1) 


Sxx = Y (xy -x)?= 20? -2Xi iX+X )= Nx 2% Y x, +nx 
i=1 i=1 i=1 


2 E 2 2 13. ,72_ A 
2 Xi A A Xx — 2xnx + NX -5x -nX 
= l = i 


n 


2 


2 


1i 
143 


Xi 
n 


n 2 2 n 2 
Y xí =n (E sa y = 2X (E ) esto completa la demostración 


i=1 = 


11.4 ANALISIS DE VARIANZA 

El análisis de varianza es un método estadístico para conocer si los valores de un grupo de 
datos son significativamente diferentes de otro(s) grupo(s) de datos. Este método se puede 
aplicar al modelo de regresión lineal. 


Algunos supuestos son necesarios para su aplicación, entre estos, que las observaciones sean 
independientes y que la distribución de la variable dependiente sea normal. 


Consideremos la fórmula (4): 
2 


n S 
SCE = X (yi - 9i)? = Sy -% 
20 Yi) YY T Sxx 
Se puede escribir 
2 
xy 


Sustituyendo la fórmula (5) 


S,y =SCR+SCE 


Sustituyendo la definición de la fórmula (3) 


SCT = SCR + SCE 


Con la sustitución de las equivalencias de las fórmulas (3), (4) y (5) se obtiene 


Definición: Descomposición de la variabilidad para el modelo de regresión lineal 


20-97 = 2007 + Dli- 


Esta fórmula permite descomponer la variabilidad total SCT de la variable de respuesta (y) en 
dos componentes: la variabilidad SCR correspondiente a la recta de regresión de mínimos 


cuadrados, y la variación residual SCE que no se ha incluido en la recta de mínimos 
cuadrados obtenida 


SCT: Suma de cuadrados total 
SCR: Suma de cuadrados de regresión 
SCE: Suma de cuadrados del error 


Mientras menor es el valor de SCE, mayor es la eficacia del modelo de mínimos cuadrados 
obtenido, pues su variabilidad se ajusta o explica muy bien a la variabilidad de los datos y.. 
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Encontrar los componente de variación para el modelo del ejemplo 


SCT = SCR + SCE 


n — 
SCT = Y (y; - y}? = (65- 74.8)” + (75 — 74.8)? + . . . + (75 — 74.8)? = 1885.6 

i=1 
y = 35.83 + 0.836 x (Recta de mínimos cuadrados obtenida) 
X=39: Y = 35.83 + 0.836 (39) = 68.434 


x=43: Y = 35.83 + 0.836 (43) = 71.778 


X=52: Y = 35.83 + 0.836 (52) = 79.302 


n —_ 
SCR = S ( - y}? 
i=1 
= (68.434 — 74.8)? + (71.778 -74.8) + . . . + (79.302 - 74.8) = 1550.4 


SCE = (y, - y) 
i=1 
= (65 — 68.434) + (75 — 71.778)? +... + (75 — 79.302) = 334.138 
También se puede usar la definición para obtener directamente uno de los tres componentes: 


SCT = SCR +SCE 


11.5 COEFICIENTE DE DETERMINACIÓN 

El coeficiente de determinación es otra medida de la relación lineal entre las variables x y y 
Es útil para interpretar la eficiencia de la recta de mínimos cuadrados para explicar la variación 
de la variable de respuesta (y) 


Definición: Coeficiente de determinación 


2. di AS 2 
El valor de r° mide el poder de explicación del modelo de mínimos cuadrados. Si Fr” es cercano 
a 1 significa que la recta de mínimos cuadrados se ajusta muy bien a los datos. 


Calcular el coeficiente de determinación para el ejemplo 


r= SCR _ 1550.4 
SCT 1885.6 


= 0.8222 


El poder de explicación del modelo de mínimos cuadrados es 82.22% 
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11.6 TABLA DE ANÁLISIS DE VARIANZA 


En la ecuación 


SCT = SCR + SCE 


SCR tiene 1 grado de libertad 


Si cada uno se divide por el número de grados de libertad se obtienen los cuadrados medios 


Todos estos resultados se los ordena en un cuadro denominado Tabla de Análisis de 


Varianza o Tabla ANOVA 


ICM ESPOL 


(varianza ponderada con el modelo con dos parámetros) 
SCE tiene n — 2 grados de libertad (existen n datos y dos parámetros en el modelo) 
SCT tiene n -— 1 grados de libertad (suma de grados de libertad de SCR y SCT) 


Tabla ANOVA 
Fuente de Grados de Suma de Cuadrados F 
variación libertad cuadrados medios bl 
Regresión 1 SCR SCR/1 (SCR/1)/(SCE/(n-2)) 
Error n-2 SCE S? = SCE/(n - 2) 
Total n-1 SCT 


El último cociente es el valor de una variable que tiene distribución F. Este estadístico se usa 


para una prueba del modelo propuesto 


Escribir la tabla de análisis de varianza para el ejemplo 


Fuente de 
variación 


Grados de 
libertad 


Suma de 
cuadrados 


Cuadrados 
medios 


Regresión 


1550.4 


1550.4 


Error 


335.2 


41.9 


Total 


1885.6 


11.7 PRUEBA DE DEPENDENCIA LINEAL DEL MODELO 
Puede demostrarse que el estadístico 
SCR 
Fo = === 
SCE/(n-2) 

Este estadístico se puede usar para realizar una prueba de hipótesis para la pendiente del 
modelo de regresión lineal 

Ho: P1=0, Hipótesis nula para probar que no hay dependencia lineal entre x y y 

Ha: |Ho 
Si se especifica el nivel de significancia œ de la prueba, entonces la región crítica es 

Rechazar Ho si fo > fa con v4 =1, v2= n — 2 grados de libertad 


tiene distribución F con v4 = 1, v2=n-2 grados de libertad 


Probar con 5% de significancia de dependencia lineal para el ejemplo 
Ho: Ba =0 


Región de rechazo de Ho: 
fo > foos COn v1 = 1, v2=8 


fo.o5,1,8 = 5.32 


(Tabla F) 


Conclusión 
Debido a que fo > 5.32, se rechaza Ho, es decir x y y si están relacionadas 
linealmente 
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11.8 ESTIMACIÓN DE LA VARIANZA 
La varianza de los errores del modelo o? es desconocida. Para poder hacer inferencias acerca 
de los parámetros Bo, Ba es necesario un estimador. 


Definición: Varianza muestral 


Es un estimador insesgado de la varianza del modelo teórico: E[S =0°. 
s2 


La variable aleatoria y =(n-2)— tiene distribución ji-cuadrado con n -2 g. de libertad. 
o 


Estimación de la varianza para el ejemplo 


= 41.7673 


s? e SCE 2 334.138 
n-2 


11.9 INFERENCIAS CON EL MODELO DE REGRESIÓN LINEAL 


En el modelo probabilista propuesto: 
Y = Bo+ B4X +e, si~ N(0, o?) para cada variable aleatoria Y; 


El valor esperado de este modelo, es una recta desconocida con parámetros Bo y B4 
E[Y] = Bo + B1 x 

El modelo obtenido con el método de mínimos cuadrados es 
y =P, +P,X 

En donde Po ; B, son los estimadores de los parámetros Bo, ß1 

Los estimadores son variables aleatorias pues dependen de los valores y observados. 


Si los componentes gi del error son independientes, puede demostrarse que Bea, B4 son 
estimadores insesgados, con distribución normal y con las siguientes varianzas: 


n 
2% 


Elfo1=Bo, VIB] = 04, = 0° [3] 


EIB] =B VIB] = 04, = <— 


s di a R . : ; 2 
Para definir estadísticos con los estimadores Bọ , B4 se sustituye la varianza desconocida © 
por el estimador $S? 


> 2 
2X s? 
s? =s] SeS 
Bo ns Ba So 


Tienen distribución t con v = N — 2 grados de libertad. 
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Varianza de los estimadores de mínimos cuadrados en el ejemplo 


n 
2 


39? +43? +...+52 


= sE =41.7673( ) = 45.0575 


10(2218.4) 


XX 


_— 41.7673 


= = 0.0188 
2218.4 
XX 


11.10 INFERENCIAS ACERCA DE LA PENDIENTE DE LA RECTA 


Es importante determinar si existe una relación entre las variables x y y. Esta relación está 
determinada por la pendiente fx de la recta. 


11.10.1 INTERVALO DE CONFIANZA 


Parámetro: ß4 (Pendiente de la recta de regresión lineal teórica) 


Estimador: Ba (Pendiente de la recta de mínimos cuadrados) 
t = Bı — Bı 
2 


Como es usual, la desigualdad —t.y2 < t < taz tiene probabilidad 1- a, de donde: 


El estadístico , tiene distribución t con v = Nn — 2 grados de libertad 


Definición: Intervalo de confianza para la pendiente fx con nivel 1-a 


By -tuz S5 <Br < Br + tuz S3 


Intervalo de confianza para $4 con nivel 95% para el ejemplo 
1-a=0.95 > tu = to.025 = 2.306, v = 8 grados de libertad 


Br — tz ¿S, < Ba < Bi + tuz Sí, 


0.836 — 2.306 /0.0188 < B41 < 0.836 + 2.306 /0.0188 
0.5196 < B4 <1.1524 


Es el intervalo para la pendiente de la recta de regresión lineal 


11.10.2 PRUEBA DE HIPÓTESIS 


Parámetro: ß4 (Pendiente de la recta de regresión lineal teórica) 


Estimador: Ba (Pendiente de la recta de mínimos cuadrados) 


Ho: B1=b, (b; = 0, para probar que no hay relación lineal entre x y y) 
Ha: Ba A bı 
Ba < bı 
Ba > bı 
Estadístico de prueba 
pb, . pedo dada . 
t= , tiene distribución t con v = n — 2 grados de libertad 
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Si se especifica el nivel de significancia œ se puede definir la región crítica 


B1 < b;: t< -ta 
B1 > b;: t>t, 
P1Fb;: t< tu v t> tu 


Prueba de hipótesis con 5% de significancia que f4 < 1 para el ejemplo 
Ho: Ba = 1 
Ha: B1 < 1 
a = 0.05 
Región de rechazo de Ho: t< -to.05, v=8 = t< -1.86 


Cálculo del estadístico de prueba 
p _b moa 
gabi 1 „0836-1 _ 4196 
[g? 0.0188 
Pa 


Conclusión 
La evidencia no es suficiente para rechazar que la pendiente del modelo es 1 


11.11 INFERENCIAS PARA LA INTERCEPCIÓN DE LA RECTA 
También puede ser de interés probar si la intercepción de la recta de regresión es igual a algún 
valor especificado 


11.11.1 INTERVALO DE CONFIANZA 


Parámetro: Bo (Intercepción de la recta de regresión lineal teórica) 


Estimador: Bo (Intercepción de la recta de mínimos cuadrados) 
t Z Bo r Bo 
2 


Bo 


El estadístico tiene distribución t con v = n — 2 grados de libertad 


La desigualdad — tw2 < t < toy2 se satisface con probabilidad 1 — a, de donde se obtiene 


Definición: Intervalo de confianza para la intercepción Bo con nivel 1-a 
Bo- tas2 J55, < Bo < Bo + to2 J55, 


Intervalo de confianza para Bo con nivel 95% para el ejemplo 
1-a=0.95 > tojz = to.025 = 2.306, v = 8 grados de libertad 


Bo- taz s; < Bo < Bo + tanz JS$ 

0 0 
35.83 — 2.306 /45.0575 < Bo < 35.83 + 2.306 /45.0575 
20.351 < Bo <51.309 


Es el intervalo para la intercepción de la recta de regresión lineal 
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11.11.2 PRUEBA DE HIPÓTESIS 


Parámetro: Bo (Intercepción de la recta de regresión lineal teórica) 


Estimador: Bo (Intercepción de la recta de mínimos cuadrados) 


Ho: Bo = bo (bo: algún valor especificado para la intercepción) 
Ha: Bo É bo 

Bo < bo 

Bo > bo 


Estadístico de prueba 


t= Po -Bo 


Si se especifica el nivel de significancia œ se puede definir la región crítica 


, tiene distribución t con v = n — 2 grados de libertad 


Bo < bo: t< -ta 
Bo > bo: t>t, 
Bo Æ bo: t< to v t> to 


Prueba de hipótesis con 5% de significancia que ßo> 30 para el ejemplo 
Ho: Bo = 30 
Ha: Bo > 30 
a = 0.05 
Región de rechazo de Ho: t> toos, v=8 => t> 1.86 


Cálculo del estadístico de prueba 
t- Bo -bB 35.83-30 
IS 4/45.0575 

Bo 


Conclusión 
La evidencia no es suficiente para rechazar que la intercepción del modelo es 30 


= 0.8685 


11.12 PRUEBA DE LA NORMALIDAD DEL ERROR 


Se puede usar la prueba K-S para probar la suposición de normalidad de los errores 


Prueba de Kolmogorov-Smirnov con 5% de significancia para lanormalidad del error 
con los datos del ejemplo 


Ho:  £-N(0, o°) (Distribución normal con media 0 y varianza oô) 
Ha:  ]Ho 
a = 0.05 


Estadístico de prueba 
Dn = max] S, (xi) — Fo(xi)] (Para este ejemplo Xi son los valores ej) 


Región de rechazo de Ho 
a = 0.05, n=10 => Do.os = 0.410 (Tabla K-S) 


Rechazar Ho si Dn > 0.410 
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E¡ S €¡ = yi- Yi, ¡=1,2,.., 10 


m 


y = 35.83 + 0.836 x (Recta de mínimos cuadrados obtenida) 


X1=39 > J4= 35.83 + 0.836 (39) = 68.434 
€1 = y1 - Y, = 65 — 68.434 = -3,434, etc. 
| [-3.434 

3.222 

-1.386 

-7.334 

8.518 

8.222 

5.4020 

-0.530 

-8.254 

4.302 


Modelo propuesto ei~ N(0, o?) (Aproximadamente) 


e: — 
Fo(xi) = Fo(e¡) = P(Z<—) Distribución normal estándar acumulada 
(o 


o? z SÊ = 41.7673 > o ZS = 6.4627 


pe DN = 0.1008, etc. (Datos e ordenados) 
6.4627 


Tabulación de resultados con la notación Xi = €; 


Fo(x1) = Fo(e1) = P(Z< 


Xi (ordenados) Sn(x;) Fo(xi) [Sn(x:)- Fo(x)l 
-8.254 0.1 0.1008 0.0008 
-7.334 0.2 0.1282 0.0718 
-4.302 0.3 0.2528 0.0472 
-3.434 0.4 0.2976 0.1024 
-1.386 0.5 0.4151 0.0849 
-0.530 0.6 0.4673 0.1327 
3.222 0.7 0.6910 0.0090 
5.402 0.8 0.7984 0.0016 
8.222 0.9 0.8984 0.0984 
8.518 1.0 0.9063 0.0937 


5|[oj0 (o amaia = 


Dn = max] S(x) — Fo(x;)| = 0.1327 


Conclusión: D, no cae en la región de rechazo, por lo tanto no se puede rechazar Ho 
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EJERCICIOS 


Los siguientes datos, en miles de dólares, representan los ingresos por ventas vs. los gastos 
de promoción de un producto: 


Gastos: 0.5 1.0 1.5 2.0 2.5 3.0 
Ingresos: 3.5 4.1 5.5 7.2 8.7 9.5 


Suponga que la variable de predicción (X) corresponde a los gastos, y la variable de respuesta 
(Y) se refiere a los ingresos. 


a) Construya un diagrama de dispersión de los datos 

b) Encuentre la recta de mínimos cuadrados 

c) Calcule el coeficiente de correlación e interprete el resultado 

d) Construya la tabla ANOVA 

e) Calcule el coeficiente de determinación e interprete el resultado 

f) Encuentre una estimación para la varianza de los errores del modelo 

g) Encuentre la varianza de los estimadores del modelo de mínimos cuadrados 
h) Construya un intervalo de confianza de 95% para la pendiente del modelo 

i) Pruebe con 5% de significancia que la pendiente del modelo es mayor a 2 

j) Pruebe la normalidad del error con la prueba K-S 
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MATLAB 


Regresión lineal simple usando notación matricial 


>> x=[139;143;1 21; 164; 1 57; 143;1 38; 1 75;1 34;1 52] Matriz de diseño X 
x= 


db de de d d ‘d ‘d od od od 


Vector de observaciones 


>> [b, bint, e, eint, stats] = regress(y,x, 0.05) Regresión lineal simple (a = 0.05 
b= 
35.8294 Coeficientes Bo , B4 del modelo 
0.8363 de mínimos cuadrados 
bint = 
20.3497 51.3092 Intervalos de confianza para Bo, Bs 
0.5199 1.1527 
e= Vector de residuales 
-3,4443 
3.2106 
-1.3913 
-7.3512 
8.5027 
8.2106 
5.3920 
-0.5503 
-8.2629 
-4.3159 


stats = Coeficiente de determinación R?, valor 
0.8228 37.1456 0.0003 del estadístico F, valor p de la prueba F 


Uso del modelo de mínimos cuadrados 


>> yp=b(1) + b(2)*50 Evaluar el modelo con x = 50 


77.6433 
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Matriz de correlación de los datos de la muestra 


>> mc = corrcoef(x(:,2),y) Vectores columnas X, Y 
mc = 
1.0000 0.9071 Coeficiente de correlación lineal 
0.9071 1.0000 r = 0.9071 


Gráfico de los puntos muestrales y la recta de regresión 


>> clf 
>> scatter(x(:,2),y,'filled'),grid on Gráfico de dispersión 
>> hold on, ezplot('35.8294+0.8363*x',[20, 80]) Gráfico de la recta de regresión 
>> legend('Recta de regresion''Datos muestrales',2) Rótulos 
=— Recta de regresion ] 


es Datos muestrales 
100; 


Prueba de la normalidad del error de los residuales 


>> sce=sum(e.12) Suma de los cuadrados de residuales 
sce = 
334.1363 
>> s2=scel8 Estimación de la varianza S? 


s2= 
41.7670 
>> t=sort(e); Residuales ordenados 
>> f=normcdf(t, 0, sqrt(s2)); Modelo a probar €i ~ N(0, o°)r 
>> [h,p,ksstat,vc]=kstest(t, [t f ], 0.05,0) Prueba K-S, a = 0.05 
h= 
0 No se puede rechazar el modelo 


0.9891 Valor p de la prueba 
ksstat = 
0.1339 Valor del estadístico de prueba 


vc = 
0.4093 Valor crítico de la región de rechazo 


Matriz de varianzas y covarianzas de los estimadores ßi 


>> mvc = inv(x' *x)*s2 Usando notación matricial 
mvc = 
45.0619 -0.8774 V(Bo) = 45.0619, V(B1) = 0.0188 
-0.8774 0.0188 Cov(Bo, B14) = -0.8774 
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12  REGRESION LINEAL MULTIPLE 

Consideramos el caso de una variable Y que suponemos depende linealmente de otras k 
variables X1, X2, +... , Xk . Para describir esta relación se propone un modelo de regresión 
lineal múltiple poblacional 


Definición: Modelo de regresión lineal múltiple 
Y = Bo + B1 X1 + B2 X2 + ... + Bk Xx + € 


En donde Bo, B2, . . . , Bk son los parámetros que deben estimarse para el modelo, mientras 
que e es el componente aleatorio de Y. 


Cuando k= 1, se obtiene el modelo de regresión lineal simple previamente estudiado. 
Suponer que se tiene una muestra aleatoria Qi, X2,i; === Xk is yi), i= 1, 2, ... Nn 


Para cada grupo de k valores X1,i, X2,i, -=.= Xk, se tiene un resultado u observación Yi, Este 
es uno de los posibles valores de la variable aleatoria Y; Una variable aleatoria debe tener una 
distribución de probabilidad. La aleatoriedad de Y; está dada por £i. Se supondrá que para 


cada variable aleatoria Y; el componente aleatorio €i es una variable con la misma distribución 
de probabilidad, y que además son variables independientes. 


Para comprensión de conceptos se desarrolla paralelamente un ejemplo 


Ejemplo 

Se desea definir un modelo de regresión relacionando la calificación final en cierta materia 
con la calificación parcial y el porcentaje de asistencia a clases. Para el análisis se usará una 
muestra aleatoria de 6 estudiantes que han tomado esta materia. 


Estudiante 1 3 4 

Nota Parcial Xy 67 65 78 60 
% Asistencia X2 75 78 79 83 
Nota Final Y 80 77 94 70 


Diagramas de dispersión: Y vs. Xı, Y VS. X2 
95 o o7 


90 


50 e e 
60 6 85 


65 70 75 80 
Modelo teórico de regresión lineal múltiple propuesto 


Y = Bo + B1 X1 + B2 X2 + € 
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12.1 MÉTODO DE MÍNIMOS CUADRADOS 


El siguiente procedimiento matemático permite usar los datos dados para construir un modelo 


con el cual se obtienen Bo, Bis .... Bp que serán los estimadores de los parámetros 


Bo , Ba , «+, Bk del modelo teórico de regresión lineal múltiple propuesto. 


Definición: Modelo de mínimos cuadrados 


y = Bo +B, X, +B2X2 +... + BX 


En donde Bo ; Ba» na Bk son los k+1 estimadores para los k+1 parámetros Bo, B1, -= Bk 


Para cada valor X; se tiene el dato observado Y;, mientras que al evaluar el modelo de 


mínimos cuadrados con este mismo valor X; se obtiene el valor Y; 


Sea €j = Y,—Y,, la diferencia entre estos dos valores. Esta diferencia se denomina el residual. 


Definición: Suma de los cuadrados del error 


SCE = 2e = 2Y: p y,) =9 (y: -Bo - BX; -Ê,Xz; — 0. BX ka)? 


SCE es una función con k + 1 variables: Bo ' Bao Aay Bk 


Usando el conocido procedimiento matemático para minimizar SCE: 


SCE E 
=—=0, i=0,1,2, ... , k 


OB; 


Resulta un sistema de k+1 ecuaciones lineales de donde se obtienen los k+1 estimadores 


Bo J Ba na Bk 


12.2 MÉTODO DE MÍNIMOS CUADRADOS PARA k=2 


Supongamos que Y depende de dos variables X1, X2 


Modelo teórico de regresión lineal múltiple propuesto: 
Y = Bo + B1 X1 + B2 X2 +€ 


Modelo de mínimos cuadrados; 
y =Bo +B, X1+BX, 
o0SCE 


Para encontrar Po , Pa, B , derivar SCE e igualar a cero: ——=0, i=0,1,2. 
i 


Luego de la aplicación y simplificación algebraica se obtiene 
n n n 
np, + BL Xii + BY Xa; = Y y, 
i=1 i=1 i=1 
E n A n a n n 
2 
Bo Y Xai + BO + BY XX = Y Xy 
i=1 i=1 i=1 i=1 
¿Ze n ES n en n n 
2 
Bo 2 Xai + BL XX + BO = Y Xy, 
i=1 i=1 i=1 i=1 


Al resolver este sistema lineal se obtienen los estimadores Be, Bi» B2 
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El sistema de ecuaciones se puede expresar en notación matricial 


AP=cC 
Siendo 
n n n 
n Xii Xai E Y y 
i=1 i=1 Bo 7 
n n en eN n 
= 2 = = 
A= Xii Xii XriXo ¡ , B z Ba , C= Y Xay: 
i=1 i=1 i=l a i=1 
n n B2 de 
2 
Xi X2iXzi Dx Y Xay: 
i=1 i=1 ¡=1 i=1 


12.3 REGRESIÓN LINEAL MÚLTIPLE EN NOTACIÓN MATRICIAL 
En esta sección se describe la notación matricial para expresar el modelo de regresión lineal 
múltiple. Esta notación es usada después para el modelo de regresión de mínimos cuadrados. 


Consideramos el caso específico k = 2 en donde Y depende de dos variables X1, X2 


Modelo de regresión lineal poblacional propuesto: 
Y = Bo + B1 X1 + B2 X2 +E, si~ N(0, 0?) 


Datos de la muestra: 
Qui X2,i; yi), i= 1, 2, 2. N 


Cada observación y¡ es un valor de la variable aleatoria Y;, i= 1, 2, ..., N 
Yi = Bo + B1 X1, + B2 X2, + £i „i= 1, 2, N 


En forma desarrollada, 
Y1 = Bo + B1 X1,1 + B2X21 + £1 
Y2 = Bo + B1 X1,2 + B2 X2,2 + €2 


Yn = Bo + B1 X1,n + B2 X2,n + En 


El modelo teórico expresado en notación matricial es 


Yı 1 X X21 E1 
Y2| |1 X2 X22 || Bo] |£2 
=|. . . Pr |+ 

Ba 
Y. 1 Xin X2n En 


En forma simbólica 
Y=XB +e 
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En donde 
Yı 1 X11 X21 E1 
Yo 1 X12 X22 Bo E2 
Y = y X= © P=iPa|. e= 
. Ba 
Yhn 1 Xin X2n En 


La matriz X se denomina matriz de diseño 


ICM ESPOL 


El sistema de ecuaciones del modelo de regresión lineal múltiple de mínimos cuadrados, k=2 


AP=C 


puede entonces expresarse con la notación matricial desarrollada para el modelo teórico: 


La matriz de coeficientes A se puede construir con la matriz de diseño X 


i=1 i=1 1 1 1 ||1 x2 
n n 
2 
A= b IR, Y XX =(X11 Xz2 Xin 
i=1 i=1 i=1 
n n X21 X22 Xan 
$ Xz Y XX Koi 1 Xin 
i=1 i=1 i=1 


En forma simbólica: A=X'X 


El vector C puede expresarse también con la matriz de diseño X 


Y y, Y; 
i=1 o? 


; 1 1 1 ]ly, 
C= 2 Xay A Ka a e il 
E X21 X22 Xon id 
2 X2;Y; y, 
i=1 


En forma simbólica: C=X'y 


Con esta notación el modelo de mínimos cuadrados se puede escribir 


AB=C > XXpB=X'y 


Y; 
[Ba yo 
En donde B =|B,|, y= 
Ba 
Yn 


Finalmente, con la inversa de X" X se pueden obtener los estimadores de mínimos cuadrados: 


B=0 X X y) 
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Siendo fB: Vector con los estimadores de mínimos cuadrados 


X: Matriz de diseño (construida con los datos de la muestra) 
y: Vector de observaciones obtenidas en la muestra 


La extensión de la notación matricial para k > 2 es directa 


Modelo de regresión lineal en notación matricial para el ejemplo 


Modelo de regresión lineal poblacional propuesto: 
Y = Bo + B1 X1 + B2 X2 + € 


En notación matricial 
Y=Xß +e 


En forma desarrollada, n = 6 Matriz de diseño con los datos 
1 X21 1 67 75 
X22 65 78 
X23 78 79 
X2,4 60 
64 
61 76 


Obtener el modelo de mínimos cuadrados para el ejemplo (usar la matriz de diseño) 
y=Bo + Ba X,+B2X> 
A xT yy 1 pyT 
P =(X X) (X y) 
Bo 1 1 1 1 1 1 


B,|=||67 65 78 60 64 61 
B, 75 78 79 83 65 76 


1 1 1 1 1 1 
67 65 78 60 64 61 
75 78 79 83 65 76 


1 
1 
1 
1 
1 
1 


6 395 456 J*[ 442 
395 26215 30033| |29431 
456 30033 34840| |33877 


48.974 02880 0.3927 442 -134.07 
-0.2880 4.760x10*  -3.360x10* || 29431| =| 1.4888 
-0.3927 -3.366x10* 5.458x10* ||33877 1.4437 


Modelo de mínimos cuadrados para el ejemplo 


Y=Bo + B,Xx,+B2X2 = -134.07 + 1.4888 x, + 1.4437 X, 


291 


Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


Pronosticar la calificación final de un estudiante si la calificación parcial es 75 y el 
porcentaje de asistencia a clases es 80 


y = -134.07 + 1.4888 (75) +1.4437(80) = 93.08 


12.4 ANÁLISIS DE VARIANZA 
Para este modelo también se aplica la misma interpretación de las fuentes de variación con las 
siguientes definiciones, similares al modelo de regresión lineal simple: 


— 1D 
y=- È Yi 
ni=1 
n T2 O 2 > va? 
SCT = Y (y; -y) SCE = ) (y; - Y) SCR = $ (Y; - y) 
i=1 i=1 i=1 
Se obtiene la relación entre las fuentes de error del modelo de regresión lineal múltiple 


SCT = SCR + SCE 
Ei YY? = NY Y)? + E-I)? 
i=1 ¡=1 1 


Esta fórmula permite descomponer la variabilidad total SCT de la variable de respuesta (y) en 
dos componentes: la variabilidad SCR correspondiente al modelo de regresión de mínimos 
cuadrados, y la variación residual SCE que no se ha incluido en el modelo calculado 


SCT: Suma de cuadrados total 
SCR: Suma de cuadrados de regresión 
SCE: Suma de cuadrados del error 


Mientras menor es el valor de SCE, mejor es la eficacia del modelo de mínimos cuadrados 
propuesto. 


Análisis de varianza para el ejemplo 


SCT = SCR + SCE 


1 n 
Y yi=5(60+77+ 94 + 70 + 51 + 70) = 73.6666 
n; 

i=1 


y = -134.07 + 1.4888 x, +1.4437X, (Modelo de mínimos cuadrados obtenido) 


X1 = 67, X2=75: Y = -134.07 + 14888(67) + 1.4437(75) = 73.9571 


X1 = 65, X2 = 78: Y = -134.07 + 14888(65) + 1.4437(78) = 75.3106 


X1 = 61, X2 = 76: Y = -134.07 + 14888(61) + 1.4437(76) = 66.4680 


n = 
SCT = Y (y; - y)? = (80 - 73.6666)? + (77 - 73.6666) + . . . + (70 — 73.6666)? = 1005.3 
i=1 
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n Sm 
SCR = $ (Y, - y)? 
i=1 
= (73.9571 - 73.6666)? + (75.3106 - 73.6666)? + . . . + (66.4680 - 73.6666)* 
= 906.7070 


scE = $y Y, 


= (80 - 73.9571)? + (77 - 75.3106)? + . . . + (70 - 66.4680)? = 98.5831 


También se puede usar la definición para obtener directamente uno de los tres componentes: 
SCT = SCR + SCE 


12.5 COEFICIENTE DE DETERMINACION 

El coeficiente de determinación es otra medida de la relación lineal entre las variables x y y 
Es útil para interpretar la eficiencia del modelo de mínimos cuadrados para explicar la variación 
de la variable de respuesta 


Definición: Coeficiente de determinación 


2 PEAN E 2 
El valor de Fr” mide el poder de explicación del modelo de mínimos cuadrados. Si Fr” es cercano 
a 1 significa que el modelo de mínimos cuadrados se ajusta muy bien a los datos. 


Coeficiente de determinación para el ejemplo 


r? =SCR _ 906.707 Z y 9919 = 90.19% 


SCT 1005.3 


El poder de explicación del modelo de mínimos cuadrados es 90.19% 


12.6 TABLA DE ANÁLISIS DE VARIANZA 


En la ecuación 
SCT = SCR + SCE 


SCR tiene k grados de libertad (varianza ponderada con el modelo con k+1 parámetros) 
SCE tiene n-k-1 grados de libertad (existen n datos y k parámetros en el modelo) 
SCT tienen- 1 grados de libertad 


Si cada uno se divide por el número de grados de libertad se obtienen los cuadrados medios 


Todos estos resultados se los ordena en un cuadro denominado Tabla de Análisis de 
Varianza o Tabla ANOVA 


Tabla ANOVA 
Fuente de Grados de Suma de Cuadrados E 
variación libertad cuadrados medios o 
Regresión k SCR SCR/k (SCR/K)(SCE/( n-k-1)) 
Error n-k-1 SCE SCE/(n-k-1) 
Total n-1 SCT 


El último cociente es el valor de una variable que tiene distribución F. Este estadístico se usa 
para una prueba del modelo propuesto 
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Tabla de análisis de varianza para el ejemplo 


ICM ESPOL 


Fuente de 
variación 


Grados de 
libertad 


Suma de 
cuadrados 


Cuadrados 
medios 


Fo 


Regresión 


906.707 


453.3535 


13.7961 


Error 


98.5831 


32.8610 


Total 


1005.3 


12.7 PRUEBA DE DEPENDENCIA LINEAL DEL MODELO 
Puede demostrarse que el estadístico 
SCR/k 
Fo = === 
SCE l(n -k - 1) 
Este estadístico se puede usar para realizar una prueba de hipótesis para determinar la 
dependencia lineal del modelo de regresión lineal propuesto 


tiene distribución F con v¿=k, v2=n-k-1 grados de libertad 


Ho: B1=....= Bk =0, 
Ha: |Ho 


No hay dependencia lineal de y con las X; 
La respuesta Y depende linealmente de al menos una 
variable X; 


Si se especifica el nivel de significancia œ de la prueba, entonces la región crítica es 
Rechazar Ho si fo > fa con v1 =k, v2=n -k - 1 grados de libertad 


Prueba con 5% de significancia de la dependencia lineal para el ejemplo 
Ho: Ba = B2 =0 


Región de rechazo de Ho: 
fo.o5 con v1 = 2, V2 =3 > fo.os, 2,3 = 9.55 
Rechazar Ho si fo > 9.55 


(Tabla F) 


Conclusión: Debido a que fọ =13.7961 es mayor a 9.55, se rechaza Ho, es decir que al 
menos una de las variables independientes X1, X2 contribuyen significativamente al modelo 


12.8 ESTIMACIÓN DE LA VARIANZA 


r 2 . ; š 
La varianza de los errores del modelo ©“ es desconocida. Para poder hacer inferencias acerca 
de los parámetros Bo, B1, » . -, Bk es necesario un estimador. 


Definición: Varianza muestral 


Estimación de la varianza muestral para el ejemplo 


SCE 98.583 


= = 32.861 
n-k-1 6-2-1 
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12.9 MATRIZ DE VARIANZAS Y COVARIANZAS 


Es una forma ordenada de expresar las varianzas y covarianzas de los estimadores del modelo 
de regresión lineal 


La estadística matemática demuestra la siguiente expresión matricial denominada matriz de 
varianzas y covarianzas, con la cual se pueden definir los estadísticos de prueba 


Definición: Matriz de varianzas y covarianzas 


So O01 


O10 “11 


[5,] = (X7 X)" o° = (X Xx)? S? = 


En donde X es la matriz de diseño del modelo de regresión lineal múltiple 


Las varianzas y covarianzas de los estimadores se definen de la siguiente forma: 


v[B;] =0% = Oji; ¡=0,1,..., k (Varianza de Bi) 


Cov[ ĝi À Bj] = oi, = Oj ¡=0,1,..., k (Covarianza de Pi Bj) 


Matriz de varianzas y covarianzas para el ejemplo 


48.974  -02880 -0.3927 
[5] =00%X)%0%2 (XTXJŤS? =|-0.2880 4.760x10®  -3.360x10”* | (32.861) 
-0.3927 -3.366x10*  5.458x10* 


1609.33 -9.4653 -12.904 
-9.4653 0.15654 -0.01106 
-12.904 -0.01106 0.17937 


Varianza de los estimadores de mínimos cuadrados para el ejemplo 


VIB.]=0f = Gi» 1=0,1,2 


V[Bo] = 0% = O00 = 1609.33 
0 


VI] = 0% = 011 = 0.15654 
1 


V[f,] = 0% = 022 = 0.17937 
2 
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12.10 INFERENCIAS CON EL MODELO DE REGRESIÓN LINEAL 


El modelo teórico probabilista propuesto es: 
2 
Y = Bo + B1 X1 + B2 X2 +... + BkXk te, s~ N(0, 0?) 


El modelo obtenido con el método de mínimos cuadrados es: 

y = Bo + B1 X1 +B2X2 + -e + BKXk 
Del cual se obtienen los estimadores Ba , P;,»....P, para los parámetros Bo , Ba, -= Bk 
Los estimadores son variables aleatorias pues dependen de valores aleatorios observados y. 


Si los componentes g; del error son independientes, puede demostrarse que los estimadores 
son insesgados 


E[B,] =Pi, ¡=0,1, ..., k 
Cada estimador Bi tiene distribución normal 


Bi ~ N(Bi, 5% ), ¡=0,1,..., k 


12.10.1 ESTADÍSTICOS PARA ESTIMACIÓN DE PARÁMETROS 


Se establecen los estadísticos para realizar inferencias 


Definición: Estadísticos para estimación de los parámetros Bo , B1 , ..., Bk 


i , tienen distribución t con v = n-k- 1 grados de libertad 


12.10.2 INTERVALO DE CONFIANZA 
Parámetro: P¡,1=0,1,..., K 
Estimador: ĝi; ,1=0,1,...,k 
El estadístico 


Bi -Pi 


t= =r tiene distribución t con v = n-k- 1 grados de libertad 
O^ 
B; 
1=0,1,...,k 


Como es usual, la desigualdad —toy2 < t < too tiene probabilidad 1 - aL. De donde se obtiene 


Definición: Intervalo de confianza para Pi con nivel 1 - a 
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Intervalo de confianza para ßo con nivel 95% para el ejemplo 


1-0.=0.95, v=N-k-1=6-2-1=3 > tw2= to.o25 = 3.182 (Tabla T) 


Bo — torz J5, < Bo <Ê 


-134.071 - 3.188 /1609.33< Bo < -134.071 + 3.188 /1609.33 


-261.72 < Bop < -6.4204 


12.10.3 PRUEBA DE HIPÓTESIS 
Parámetro: Pi,i=0,1,..., k 


Estimador: Bi ,1=0,1,...,k 


1) Ho: Bi = bo (Algún valor especificado para el parámetro ßi) 
2) Ha: Pi < bo ó Bi > bo (0) Bi = bo 
3) aL nivel de significancia de la prueba 
4) Estadístico de prueba 
o e 
t= zz + tiene distribución t con v =n-k-1 grados de libertad 
o 
i =0, 1, ..., k 

Si se especifica el nivel de significancia œ se define la región de rechazo de Ho 

Ha: Bi < bo t<-to 

Ha: Bi > bo t>t 

Ha: Bi + bo t<-tojz v t> to 


Es importante probar la hipótesis Ho: Bi = 0 individualmente con cada parámetro f;. En caso 
de que se pueda rechazar Ho, se puede concluir que la variable contribuye significativamente a 
la respuesta. Caso contrario, la variable es redundante y puede eliminarse del modelo. 


Prueba con 5% de significancia que B, + 0. (En el ejemplo se prueba si la variable X,, 
porcentaje de asistencia, contribuye significativamente al modelo) 


Ho: Ba =0 

Ha: Ba +0 

a = 0.05 

v=n-k-1=3, ta2= to.025 = 3.182 (Tabla T) 


Región de rechazo de Ho: t< -3.182 o t> 3.182 


Cálculo del estadístico de prueba 
t- P2-0 _ 1.4437 -0 


~v0.17937 
2 


Decisión: Se rechaza Ho = el aporte de Xz al modelo si es significativo 


=3.4088, t cae en la región de rechazo 
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12.11 PRUEBA DE LA NORMALIDAD DEL ERROR 


Se puede usar la prueba K-S para probar la suposición de normalidad de los errores 


Prueba de Kolmogorov-Smirnov con 5% de significancia para la normalidad del 
error con los datos del ejemplo 


Ho: e ~ N(0, o’) (Distribución normal con media 0 y varianza o?) 
Ha:  ]|Ho 
a = 0.05 


Estadístico de prueba 
Dn = max] Sn(Xxi) - Fo(xi)] (Para este ejemplo Xi son los valores €j) 


Región de rechazo de Ho 
a = 0.05, Nn=6 => Do.os = 0.521 (Tabla K-S) 


Rechazar Ho si Dn > 0.521 
gi = €i = yi- Ji, 1=1,2,.., 6 


y = -134.07 + 1.4888 x, + 1.4437x, (Modelo de mínimos cuadrados obtenido) 
Xı = 67, X2 = 75 > ys -134.07 + 14888(67) + 1.4437(75) = 73.9571 
er = yı -Y,= 80 - 73.9571 = 6.0429, etc. 
| [6.0429 
1.6866 
2.1121 
-5.0878 
—4.0562 
es| [3.5294 


Modelo propuesto € ~ N(0, o°) (Aproximadamente) 
e;-0 
Fo(Xi) = Fo(e;) = P(Z< e 


) Distribución normal estándar acumulada 


o? z S? = 32.861 > S=5.7325 


Fo(x1) = Fo(-5.0878) = P(Z< 2878-0 


) = 0.1874, etc (Datos € ordenados) 
5.7325 


Tabulación de resultados con la notación Xi = €j 
i Xi (ordenados) Sn(xi) Fo(xi) [Sn(%i)- Fo(x<i)| 
-5.0878 1/6 = 0.1666 0.1874 0.0207 


-4.0562 2/6 = 0.3333 0.2396 0.0937 
-2.1121 3/6 = 0.5 0.3563 0.1437 
1.6866 4/6 = 0.6666 0.6157 0.0510 
3.5294 5/6 = 0.8333 0.7310 0.1023 
6.0401 6/6=1 0.8540 0.1460 


Dn = max] S.(xi) - Fo(X:)| = 0.1460 


Conclusión: Dn no cae en la región de rechazo, por lo tanto no se puede rechazar Ho 
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EJERCICIO 


Se realizó un estudio del desgaste de un rodamiento (Y), y su relación con la viscosidad del 
aceite (X,) y la carga que soporta (X2), obteniéndose los siguientes datos, en las unidades que 
correspondan: 


X1 X2 Y 

1.6 8.51 19.3 
15.5 8.16 23.0 
22.0 10.58 17.2 
43.0 12.01 91.0 


Analice el modelo de regresión lineal múltiple propuesto: 


Y = Bo + B1 X1 + B2 X2 + E€, zi ~ N(0, 0°) 


a) Dibuje un diagrama de dispersión Y vs. Xı y Y vs. X2 

b) Escriba la matriz de diseño y con ella escriba el modelo propuesto en notación matricial 

c) Use el modelo de mínimos cuadrados para encontrar los estimadores del modelo propuesto. 
Use la matriz de diseño en sus cálculos 

d) Use el modelo para pronosticar el desgaste cuando la viscosidad sea 25 y la carga 10.0 

e) Calcule SCT, SCR, SCE y escriba la Tabla ANOVA 

f) Pruebe con 5% de significancia la dependencia lineal del modelo propuesto 

g) Encuentre el coeficiente de determinación e interprete su significado. 

h) Calcule una estimación de la variancia 

i) Encuentre la matriz de variancia-covariancia 

j) Calcule la varianza de los estimadores del modelo de mínimos cuadrados 

k) Encuentre un intervalo de confianza de 95% para cada parámetro 

I) Pruebe con 5% de significancia si el aporte de cada variable X,, X2 al modelo es significativo 

m) Pruebe la normalidad del error con 5% de significancia mediante la prueba de 
Kolmogorov-Smirnov 
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MATLAB 


Regresión lineal múltiple usando notación matricial 


>> x=[1 67 75; 1 65 78; 1 78 79; 1 60 83; 1 64 65; 1 61 76] Matriz de diseño X 
x= 


Vector de observaciones 


>> [b, bint, e, eint, stats] = regress(y, x, 0.05) Regresión lineal simple a = 0.05 


b= Coeficientes Bo , Ba, B2 del modelo 
-134.0719 de mínimos cuadrados 

1.4888 

1.4437 


bint = Intervalos de confianza para Bo Ba , B2 
-261.7405 -6.4034 
0.2297 2.7480 
0.0959 2.7916 
Vector de residuales 


Coeficiente de determinación R?, valor 
0.9019 13.7968 0.0307 del estadístico F, valor p de la prueba F 


Uso del modelo de mínimos cuadrados 
>> yp=b(1)+b(2)*75+b(3)*80 Evaluar el modelo con x1 = 75, X2 = 80 


93.0893 


Matriz de correlación lineal de los datos de la muestra 
>> cx1y =corrcoeft(x(:,2),y) Correlación lineal entre xı y y 
cxly = 
1.0000 0.7226 r=0.7226 (correlación positiva débil) 
0.7226 1.0000 
>> cx2y=corrcoef(x(:,3),y) Correlación lineal entre x2 y y 
cx2y = 
1.0000 0.6626 r=0.6626 (correlación positiva débil) 
0.6626 1.0000 
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Gráficos de dispersión recta de regresión 

>> clf 

>> scatter(x(:,2),y,'b','filled'),grid on Gráfico de dispersión Xy y y 
>> scatter(x(:,3),y,'k','filled"),grid on Gráfico de dispersión X, y y 


Prueba de la normalidad del error de los residuales 
>> sce =sum(e./2) Suma de los cuadrados de residuales 
sce = 
98.5830 
>> s2 =scel3 Estimación de la varianza $S? 


s2= 
32.8610 
>> t=sort(e); Residuales ordenados 


>> f=normcdí(t, 0, sqrt(s2)); Modelo a probar €i ~ N(0, o°)r 
>> [h,p,ksstat,vc]=kstest(t,[t f ], 0.05,0) Prueba K-S, a = 0.05 


No se puede rechazar el modelo 
Valor p de la prueba 
Valor del estadístico de prueba 


Valor crítico de la región de rechazo 


Matriz de varianzas y covarianzas de los estimadores ßi 


>> format long Para visualizar con mayor precisión 
>> mvc = inv(x' *x)*s2 MVC Usando notación matricial 


mvc = La diagonal contiene los valores V(Bj) 
1.0e+003 * 

1.60933261666704 -0.00946526866468 -0.01290428413874 V(Bo) = 1609.3 
-0.00946526866468 0.00015654447216 -0.00001106020727 V(B1) = 0.1565 
-0.01290428413874 -0.00001106020727 0.00017937387435 V(P2) = 0.1793 
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DISTRIBUCIÓN NORMAL ESTÁNDAR 


PROBABILIDAD ACUMULADA F(2), Z<0 


0.4 


=— Distribucion normal estandar 


0.351 


0.31 


0.2| 


0.15} 


0.1} 


0.05! 


0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 


0.000165 0.000172 0.000179 0.000185 0.000193 0.000200 0.000208 0.000216 0.000224 0.000233 
0.000242 0.000251 0.000260 0.000270 0.000280 0.000291 0.000302 0.000313 0.000325 0.000337 
0.000350 0.000362 0.000376 0.000390 0.000404 0.000419 0.000434 0.000450 0.000467 0.000483 
0.000501 0.000519 0.000538 0.000557 0.000577 0.000598 0.000619 0.000641 0.000664 0.000687 
0.000711 0.000736 0.000762 0.000789 0.000816 0.000845 0.000874 0.000904 0.000935 0.000968 
0.001001 0.001035 0.001070 0.001107 0.001144 0.001183 0.001223 0.001264 0.001306 0.001350 
0.001395 0.001441 0.001489 0.001538 0.001589 0.001641 0.001695 0.001750 0.001807 0.001866 
0.001926 0.001988 0.002052 0.002118 0.002186 0.002256 0.002327 0.002401 0.002477 0.002555 
0.002635 0.002718 0.002803 0.002890 0.002980 0.003072 0.003167 0.003264 0.003364 0.003467 
0.003573 0.003681 0.003793 0.003907 0.004025 0.004145 0.004269 0.004396 0.004527 0.004661 
0.004799 0.004940 0.005085 0.005234 0.005386 0.005543 0.005703 0.005868 0.006037 0.006210 
0.006387 0.006569 0.006756 0.006947 0.007143 0.007344 0.007549 0.007760 0.007976 0.008198 
0.008424 0.008656 0.008894 0.009137 0.009387 0.009642 0.009903 0.010170 0.010444 0.010724 
0.011011 0.011304 0.011604 0.011911 0.012224 0.012545 0.012874 0.013209 0.013553 0.013903 
0.014262 0.014629 0.015003 0.015386 0.015778 0.016177 0.016586 0.017003 0.017429 0.017864 
0.018309 0.018763 0.019226 0.019699 0.020182 0.020675 0.021178 0.021692 0.022216 0.022750 
0.023295 0.023852 0.024419 0.024998 0.025588 0.026190 0.026803 0.027429 0.028067 0.028717 
0.029379 0.030054 0.030742 0.031443 0.032157 0.032884 0.033625 0.034379 0.035148 0.035930 
0.036727 0.037538 0.038364 0.039204 0.040059 0.040929 0.041815 0.042716 0.043633 0.044565 
0.045514 0.046479 0.047460 0.048457 0.049471 0.050503 0.051551 0.052616 0.053699 0.054799 
0.055917 0.057053 0.058208 0.059380 0.060571 0.061780 0.063008 0.064256 0.065522 0.066807 
0.068112 0.069437 0.070781 0.072145 0.073529 0.074934 0.076359 0.077804 0.079270 0.080757 
0.082264 0.083793 0.085343 0.086915 0.088508 0.090123 0.091759 0.093418 0.095098 0.096801 
0.098525 0.100273 0.102042 0.103835 0.105650 0.107488 0.109349 0.111233 0.113140 0.115070 
0.117023 0.119000 0.121001 0.123024 0.125072 0.127143 0.129238 0.131357 0.133500 0.135666 
0.137857 0.140071 0.142310 0.144572 0.146859 0.149170 0.151505 0.153864 0.156248 0.158655 
0.161087 0.163543 0.166023 0.168528 0.171056 0.173609 0.176185 0.178786 0.181411 0.184060 
0.186733 0.189430 0.192150 0.194894 0.197662 0.200454 0.203269 0.206108 0.208970 0.211855 
0.214764 0.217695 0.220650 0.223627 0.226627 0.229650 0.232695 0.235762 0.238852 0.241964 
0.245097 0.248252 0.251429 0.254627 0.257846 0.261086 0.264347 0.267629 0.270931 0.274253 
0.277595 0.280957 0.284339 0.287740 0.291160 0.294599 0.298056 0.301532 0.305026 0.308538 
0.312067 0.315614 0.319178 0.322758 0.326355 0.329969 0.333598 0.337243 0.340903 0.344578 
0.348268 0.351973 0.355691 0.359424 0.363169 0.366928 0.370700 0.374484 0.378281 0.382089 
0.385908 0.389739 0.393580 0.397432 0.401294 0.405165 0.409046 0.412936 0.416834 0.420740 
0.424655 0.428576 0.432505 0.436441 0.440382 0.444330 0.448283 0.452242 0.456205 0.460172 
0.464144 0.468119 0.472097 0.476078 0.480061 0.484047 0.488033 0.492022 0.496011 0.500000 
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DISTRIBUCIÓN NORMAL ESTÁNDAR 


PROBABILIDAD ACUMULADA F(2), Z > 0 


0.4 


— Distribucion normal estandar 


0.35 


0.3 


0.1 


0.05 


Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 


0.0 | 0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.532922 0.527903 0.531881 0.535856 
0.1 | 0.539828 0.543795 0.547758 0.551717 0.555760 0.559618 0.563559 0.567495 0.571424 0.575345 
0.2 | 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092 
0.3 | 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732 
0.4 | 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933 
0.5 | 0.691462 0.694974 0.698468 0.701944 0.705401 0.708840 0.712260 0.715661 0.719043 0.722405 
0.6 | 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903 
0.7 | 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236 
0.8 | 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.813267 
0.9 | 0.815940 0.818589 0.821214 0.823815 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913 
1.0 | 0.841345 0.843752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143 
1.1 | 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.882977 
1.2 | 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475 
1.3 | 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914657 0.916207 0.917736 
1.4 | 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888 
1.5 | 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083 
1.6 | 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486 
1.7 | 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962462 0.963273 
1.8 | 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621 
1.9 | 0.971283 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705 
2.0 | 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691 
2.1 | 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738 
2.2 | 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989 
2.3 | 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991576 
2.4 | 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613 
2.5 | 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201 
2.6 | 0.995339 0.995473 0.995604 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427 
2.7 | 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365 
2.8 | 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074 
2.9 | 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605 
3.0 | 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999 
3.1 | 0.999032 0.999065 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289 
3.2 | 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499 
3.3 | 0.999517 0.999533 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999650 
3.4 | 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758 
3.5 | 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999821 0.999828 0.999835 
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TABLA DE LA DISTRIBUCIÓN T 


6 -4 2 0 2 i 6 
€ 


t > P(T>t,)= a 


a .40 .25 .10 05 .025 .01 .005  .0025 .001  .0005 


6.314 12.706 31.821 63.657 127.320 318.310 636.620 
6.965 
4.541 
3.747 
3.365 
3.143 
2.998 
2.896 
2.821 
2.764 
2.718 
2.681 
2.650 
2.624 
2.602 
2.583 
2.567 
2.552 
2.539 
2.528 
2.518 
2.508 
2.500 
2.492 
2.485 
2.479 
2.473 
2.467 
2.462 
2.457 


2.326 
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TABLA DE LA DISTRIBUCIÓN JI-CUADRADO 


a > Pê x4)=a 
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TABLA DE LA DISTRIBUCIÓN F 


V1,V2 


0 F F 


o 1 2 Fav v3 4 5 6 7 


> P(F > usd = Q Qa = 0.05 


V2 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 0 


1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 243.9 245.9 248.0 249.1 250.1 251.1 252.2 253.3 254.3 
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50 
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53 
7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63 
6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36 
5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67 
5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23 
5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93 
5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71 
4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54 
4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2,49 2.45 2.40 
4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2,34 2.30 
4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2,30 2.25 2.21 
4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.53 2.46 2.39 2.35 2,31 2.27 2.22 2.18 2.13 
4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2,48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07 
4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2,49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 
4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96 
4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92 
4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 
4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84 
4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81 
4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78 
4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76 
4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73 
4.24 3,39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71 
4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.15 2.07 1.99 1.95 1.90 1.85 1.80 1.75 1.69 
4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.13 2.06 1.97 1.93 1.88 1.84 1.79 1.73 1.67 
4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.77 1.71 1.65 
4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.10 2.03 1.94 1.90 1.85 1.81 1.75 1.70 1.64 
4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62 
4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51 
4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39 
120 3.92 3.07 2.68 2.45 2.29 2.17 2.09 2.02 1.96 1.91 1.83 1.75 1.66 1.61 1.55 1.55 1.43 1.35 1.25 


œ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1.57 1.52 1.46 1.39 1,32 1.22 1.00 
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TABLA PARA LA PRUEBA KOLMOGOROV-SMIRNOV (K-S) 


OL: 
n: 


Nivel de significancia 
Tamaño de la muestra 


Valores críticos Dn 


ñi a 0.20 0.15 0.10 0.05 0.01 
1 0.900 0.925 0.950 0.875 0.995 
2 0.684 0.726 0.776 0.842 0.929 
3 0.565 0.597 0.642 0.708 0.828 
4 0.494 0.525 0.564 0.624 0.733 
5 0.446 0.474 0.510 0.565 0.669 
6 0.410 0.436 0.470 0.521 0.618 
7 0.381 0.405 0.438 0.486 0.577 
8 0.358 0.381 0.411 0.457 0.543 
9 0.339 0.360 0.388 0.432 0.514 
10 0.322 0.342 0.368 0.410 0.490 
11 0.307 0.326 0.352 0.391 0.468 
12 0.295 0.313 0.338 0.375 0.450 
13 0.284 0.302 0.325 0.361 0.433 
14 0.274 0.292 0.314 0.349 0.418 
15 0.266 0.283 0.304 0.338 0.404 
16 0.258 0.274 0.295 0.328 0.392 
17 0.250 0.266 0.286 0.318 0.381 
18 0.244 0.259 0.278 0.309 0.371 
19 0.237 0.252 0.272 0.301 0.363 
20 0.231 0.246 0.264 0.294 0.356 
25 0.210 0.220 0.240 0.270 0.320 
30 0.190 0.200 0.220 0.240 0.290 
35 0.180 0.190 0.201 0.230 0.270 
M 35 1.07 1.14 1.22 1.36 1.63 
di Jn Jn Jn Jn Jn 
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DISTTOOL 


Instrumento computacional gráfico interactivo disponible en MATLAB para entender visualmente 
algunas propiedades de las distribuciones de probabilidad más importantes. 


DISTTOOL crea interactivamente el gráfico de la distribución de probabilidad, o densidad de 
probabilidad, y la distribución acumulada para los siguientes modelos: 


Beta Binomial Ji-cuadrado 
Uniforme discreta Exponencial F 
Gamma Geométrica Lognormal 


Binomial Negativa F no centrada T no centrada 
Ji-cuadrado no centrada Normal Poisson 

Rayleigh T Uniforme continua 
Weibull 


Se pueden cambiar los parámetros escribiendo sus valores o moviendo un cursor sobre el 
gráfico o barras de desplazamiento. Se pueden obtener valores de la distribución o de 
probabilidad moviendo una línea de referencia sobre el gráfico 


Para activar este utilitario digite disttool en la ventana de comandos de MATLAB 


[Binomial 


T 


Density 
0.2424 
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RANDTOOL 


Instrumento computacional gráfico interactivo disponible en MATLAB para obtener muestras 
aleatorias de las distribuciones de probabilidad más importantes. 


RANDTOOL crea un histograma con los datos de las muestras aleatorias generadas para los 
siguientes modelos. 


Beta Binomial Ji-cuadrado 
Uniforme discreta Exponencial F 
Gamma Geométrica Lognormal 


Binomial Negativa F no centrada T no centrada 
Ji-cuadrado no centrada Normal Poisson 

Rayleigh T Uniforme continua 
Weibull 


Se pueden cambiar los parámetros escribiendo sus valores o moviendo barras de 
desplazamiento. Se puede especificar el tamaño de la muestra y se puede almacenar la muestra 
escribiendo una variable para ser usada desde la ventana de comandos de MATLAB. 


Para activar este utilitario digite randtool en la ventana de comandos de MATLAB 


Normal Samples 


T 


5 
Values 


Resample 


Dutput... 


31 0 Ing. Luis Rodríguez Ojeda, MSc. 


PROBABILIDAD Y ESTADÍSTICA BÁSICA PARA INGENIEROS ICM ESPOL 


BIBLIOGRAFÍA 


ESTADÍSTICA 


Canavos, G. C. Probabilidad y Estadística Aplicaciones y Métodos, México: McGraw-Hill 
Interamericana de México, S. A. 


Castro A. B. Probabilidades y Estadística Básicas, Quito: Escuela Politécnica Nacional 


Freund, J. E. y Walpole R. E. Estadística Matemática con Aplicaciones, 4a. ed. México: Prentice- 
Hall Hispanoamericana, S. A. 


Hines, W. W. y Montgomery D. C. Probabilidad y Estadística para Ingeniería, 3a. ed. México: 
Compañia Editorial Continental 


Mendenhall W. Introduction to Probability and Statistics, 3d. ed. California: Duxbury Press 


Miller, I. R., Freund J. E. y Johnson R. Probabilidad y Estadística para Ingenieros 4a. ed. México: 
Prentice-Hall Hispanoamericana, S. A. 


Montgomery D. C. y Runger G. C. Probabilidad y Estadística Aplicadas a la Ingeniería, 2a. ed. 
México: Editorial Limusa S. A. 


Walpole, R. E. y Myers, R. H. Probabilidad y Estadística para Ingenieros, 3a. ed. México: 
McGraw-Hill Interamericana de México, S. A. 

COMPUTACIÓN 

The MathWorks, Inc. Statistics Toolbox for use with MATLAB User's Guide, version 4 
The MathWorks, Inc. Using MATLAB Computation, Visualization, Programming, version 6 


Pérez López C. MATLAB y sus Aplicaciones en las Ciencias y la Ingeniería, Madrid: Pearson 
Educación, S. A. 


Rodríguez Ojeda L. MATLAB Conceptos Básicos y Programación, tutorial, ICM ESPOL 


311 


Ing. Luis Rodríguez Ojeda, MSc. 


